У первой версии воркшопа, которая вышла в 2022 году, был хороший показатель доходимости - на него записалось более 90 слушателей, из которых 30% дошли до конца. Да и мой опыт работы со студентами показывает, что биннинг - одна из любимых тем среди тех, кто начинает знакомиться с аналитикой данных.
Биннинг, основанный на оптимальном квантовании - мощный инструмент для поиска инсайтов в датасетах и определения прогностической силы отдельных признаков.
Этот метод весьма популярен в области кредитного скоринга, но почему-то мало известен у дата-аналитиков, работающих в других областях. И зря.
Интересно поговорить о терминологии. Вообще говоря, в русскоязычном научном сообществе "биннинг" - не очень устоявшийся термин. Вместо него употребляют термины: дискретизация, квантование, оптимальное квантование. Среди дата-аналитиков вариантов еще больше: бакетирование, WoE-энкодинг.
Но если мы обратимся к англоязычным источникам, то в них как раз таки чаще всего встречается словосочетание optimal binning. Даже популярная библиотека для Python имеет такое название.
Но если мы обратим свой взор на специальную литературу по кредитному скорингу, то в ней используют совсем другой термин - Fine&Coarse Classing. Его трудно перевести на русский язык, и когда-то разработчики в Loginom предложили вариант перевода "Начальные и конечные классы". Отсюда и название компонента, который делает оптимальный биннинг - Конечные классы. Уникальность его реализации в Loginom в том, что он поддерживает интерактивный режим, то есть в любое автоматическое разбиение можно вмешаться и сдвинуть границы бинов. Это важно при построении интерпретируемых моделей.
Что нам обычно предлагается использовать при анализе взаимосвязей между переменными? Линейный корреляционный анализ.
Как самый известный статистический метод для проверки гипотезы о линейной связи между двумя переменными, этот инструмент не устраивает современных дата-аналитиков. Во-первых, в нем измеряется только линейная связь, а во-вторых, он чувствителен к выбросам. К тому же корреляционный анализ недостаточно наглядный, а для его грамотного использования нужно понимать основы математической статистики и тестирования гипотез.
На помощь приходит биннинг с учителем. Основанный на расчете специальных индексов WoE и IV, он лишен вышеперечисленных недостатков.
Можно возразить, что для биннинга с учителем требуются размеченные данные. Да, это так. Причем в первую очередь математика WoE-анализа разработана для выходной переменной бинарного вида (0/1). Но сегодня недостатка в размеченных выборках нет, а задача бинарной классификации - одна из самых часто встречающихся на практике, если мы говорим про принятие решений и распознавание образов.
Давайте кратко подытожим, в чем ценность обсуждаемого подхода.
Кстати, наглядность метода - очень важна. Наш проектный опыт показывает, что демонстрация заказчику выявленных инсайтов в данных на основе WoE-диаграмм воспринимается положительно и повышает доверие к работе аналитиков и результату в целом.
Записывайтесь на воркшоп в Мастерской Loginom Skills и изучайте биннинг.