Журнал

Факты о биннинге

4 сентября 2024
В преддверии воркшопа "Биннинг и оптимальное квантование" его ведущий Николай Паклин рассказывает интересные факты об этом подходе.

У первой версии воркшопа, которая вышла в 2022 году, был хороший показатель доходимости - на него записалось более 90 слушателей, из которых 30% дошли до конца. Да и мой опыт работы со студентами показывает, что биннинг - одна из любимых тем среди тех, кто начинает знакомиться с аналитикой данных.

Биннинг, основанный на оптимальном квантовании - мощный инструмент для поиска инсайтов в датасетах и определения прогностической силы отдельных признаков.

Этот метод весьма популярен в области кредитного скоринга, но почему-то мало известен у дата-аналитиков, работающих в других областях. И зря.

О терминологии

Интересно поговорить о терминологии. Вообще говоря, в русскоязычном научном сообществе "биннинг" - не очень устоявшийся термин. Вместо него употребляют термины: дискретизация, квантование, оптимальное квантование. Среди дата-аналитиков вариантов еще больше: бакетирование, WoE-энкодинг.

Но если мы обратимся к англоязычным источникам, то в них как раз таки чаще всего встречается словосочетание optimal binning. Даже популярная библиотека для Python имеет такое название.

Но если мы обратим свой взор на специальную литературу по кредитному скорингу, то в ней используют совсем другой термин - Fine&Coarse Classing. Его трудно перевести на русский язык, и когда-то разработчики в Loginom предложили вариант перевода "Начальные и конечные классы". Отсюда и название компонента, который делает оптимальный биннинг - Конечные классы. Уникальность его реализации в Loginom в том, что он поддерживает интерактивный режим, то есть в любое автоматическое разбиение можно вмешаться и сдвинуть границы бинов. Это важно при построении интерпретируемых моделей.

Чем так хорош биннинг?

Что нам обычно предлагается использовать при анализе взаимосвязей между переменными? Линейный корреляционный анализ.

Как самый известный статистический метод для проверки гипотезы о линейной связи между двумя переменными, этот инструмент не устраивает современных дата-аналитиков. Во-первых, в нем измеряется только линейная связь, а во-вторых, он чувствителен к выбросам. К тому же корреляционный анализ недостаточно наглядный, а для его грамотного использования нужно понимать основы математической статистики и тестирования гипотез.

На помощь приходит биннинг с учителем. Основанный на расчете специальных индексов WoE и IV, он лишен вышеперечисленных недостатков.

  • В нем есть наглядность - графический анализ WoE-диаграммы.
  • Позволяет оценить предсказательную силу выходной переменной (анализ IV), в том числе показать нелинейные связи.
  • Позволяет оценить характер связи отдельного бина с выходной переменной (анализ WoE).

Можно возразить, что для биннинга с учителем требуются размеченные данные. Да, это так. Причем в первую очередь математика WoE-анализа разработана для выходной переменной бинарного вида (0/1). Но сегодня недостатка в размеченных выборках нет, а задача бинарной классификации - одна из самых часто встречающихся на практике, если мы говорим про принятие решений и распознавание образов.

Почему биннинг нужен каждому аналитику?

Давайте кратко подытожим, в чем ценность обсуждаемого подхода.

  1. Визуализация и интерпретация данных. Сокращение числа уникальных значений в признаке может упростить визуализацию и интерпретацию данных. Это помогает выявлять ключевые тренды и паттерны, бороться с выбросами.
  2. Помощь в процессе отбора признаков для моделей машинного обучения. Биннинг может выявить переменные, которые имеют сильную связь с целевой переменной, и помочь отсеять менее значимые признаки.
  3. Обнаружение и использование нелинейных связей между входными признаками и целевой переменной.
  4. Обработка новых значений.

Кстати, наглядность метода - очень важна. Наш проектный опыт показывает, что демонстрация заказчику выявленных инсайтов в данных на основе WoE-диаграмм воспринимается положительно и повышает доверие к работе аналитиков и результату в целом.

Записывайтесь на воркшоп в Мастерской Loginom Skills и изучайте биннинг.