В мае 2018 года мы представили новую версию API v10, где нашим клиентам доступны более 200 предикторов и улучшенная скоринговая модель. По сравнению с предыдущей (9-й) версией было добавлено более 30 новых предикторов . Одной из наиболее важных новинок стал запуск новых индексных переменных, специально обработанных методами машинного обучения. Обладающие значимой предсказательной силой, они отражают определенные характеристики устройства, интернет-соединения, а также ряд других параметров и готовы для использования в кредитном конвейере.

Как известно, риск-менеджмент призван, во-первых, собирать все доступные данные о заемщике, а во-вторых, привлекая методы глубокой аналитики этих данных, добиваться максимального снижение уровня списаний на входящем потоке и в портфеле. Правильная группировка данных позволяет выявлять и усиливать тренды и, как следствие, повышать предсказательную силу конвейера.

Сегодня мы продемонстрируем первые результаты тестирования пяти новых предикторов из API v10.

Стопмаркеры. StopMarkers. IDX1

Переменная, агрегирующая более 20 различных стоп-маркеров (использование TOR, копирование cookie, подделка User Agent и т.п.), которые обычно представляют собой редкие (встречаются менее чем в 1% случаев) события, но с высокой степенью вероятности заканчивающиеся списанием.

На приведенных ниже рисунках гистограммы показывают распределение популяции между значениями IDX1 (оранжевая для POS банка, фиолетовая — для МФО), а линии — относительный bad rate к среднему по потоку.

Рисунок 1: сравнение распределения наблюдений по диапазонам значения переменной и относительного показателя bad rate для IDX1
IDX1 = 0 означает отсутствие стоп-маркеров; при IDX1 = 1 мы рекомендуем назначать усиленную верификацию. При IDX1 ≥ 2 концентрация заявителей с риском мошенничества высока и наиболее целесообразен будет отказ в кредите без дополнительных проверок.

Маркеры поведения пользователя. User Behaviour Markers. IDX2

Эта переменная собирает маркеры поведения пользователя устройства. Уровень риска зависит от таких факторов как наличие аномалий: большая частота обращений за кредитами с устройства, очень быстрое заполнение заявки на кредит и т.д.

Рисунок 2: сравнение распределения наблюдений по диапазонам значения переменной и относительного показателя bad rate для IDX2
Значения IDX2 в диапазоне от 0 до 3 можно рассматривать как дополнительный параметр в интегральной скоринговой модели. Заявители с высоким риском мошенничества наблюдаются при IDX2 ≥ 4, где наиболее целесообразен отказ.

Маркеры Устройства. Device Markers. IDX3

Переменная построена на вторичных риск-факторах, связанных с устройством, с которого заполняется заявка. Подозрительное поведение пользователя будут выдавать аномалии, связанные с аппаратной частью устройства, а также определенные настройки его программного обеспечения.

Рисунок 3: сравнение распределения наблюдений по диапазонам значения переменной и относительного показателя bad rate для IDX3
Значения IDX3 = 0 и 1 рекомендуется использовать в интегральной модели, при IDX3 = 2 — назначать проверки, IDX3 ≥ 3 использовать в качестве правила по предотвращению мошенничества.

Маркеры Интернет-соединения. Connection Markers. IDX4

Переменная объединяет маркеры по сетевому соединению устройства: аномалии по IP-адресам, нарушения временной зоны, проксирование и т.п. Риск списания растет пропорционально количеству и качеству выявленных аномалий.

Рисунок 4: сравнение распределения наблюдений по диапазонам значения переменной и относительного показателя bad rate для IDX4
Переменная показывает хорошую монотонность bad rate и её целесообразно применять для скоринговой модели по оценке кредитного риска. Для значений IDX4 ≥ 4 можно создавать правила на предотвращение мошенничества.

Индекс качества устройства. Device Quality. IDX5

Переменная агрегирует характеристики устройства; она является функцией качества и стоимости устройства, которая коррелирует с доходом заявителя.

Рисунок 5: сравнение распределения наблюдений по диапазонам значения переменной и относительного показателя bad rate для IDX5
При увеличении значения индекса качества устройства наблюдается существенное снижение bad rate. Такую переменную целесообразно использовать для интегральной скоринговой модели оценки кредитного риска, а также назначения кредитного лимита.

Как видно из приведенных примеров, индексные переменные даже по отдельности обладают высокой предсказательной силой. Так, IDX1 и IDX3 применимы для предотвращения мошенничества, а IDX2, IDX4 и IDX5 — для интегральной скоринговой модели по оценке кредитного риска. Правильная группировка индексов, их объединение с частотными характеристиками могут еще больше повысить эффективность риск-менеджмента и способствовать более точному принятию решений.

Наш опыт свидетельствует, что лишь глубоко понимая физический смысл каждого атрибута, причины появления его различных значений, а также влияющие на него факторы и их взаимосвязь, можно добиться высокой статистической значимости предиктора, повысить его вклад в разрешающую способность конвейера и, как следствие, влиять на бизнес-показатели организации.