Как оценить эффективность команды Data Science — несколько действенных способов

Павел Лебедев

Какие способы оценки Data Science-команды используются в корпорациях? Об этом рассказывает исполнительный директор в управлении инструментов и моделей Сбербанка Игорь Бархатов.

Как оценить эффективность команды Data Science — несколько действенных способов

Игорь Бархатов

Специалисты, работающие с данными, довольно дорогие, и напрямую чаще всего не связаны с зарабатыванием денег. Рано или поздно возникает вопрос, как оценить их работу? Команда Data Science, может достаточно точно измерить эффективность сложных математических моделей, но не может оценить эффективность собственной работы. В памяти всплывает фраза Питера Друкера, который утверждал, что мы не можем управлять тем, что не можем измерить.

В банке, чаще всего, результатом работы команды Data Science мы считаем построенную модель. Ее эффективность измеряем через статистические метрики, такие как ROC/AUC, RMSE, F1 и другие. Они имеют решающее значение для оценки, но сами по себе не могут ответить, насколько хорошо организован процесс исследования и построения модели. Поэтому в оценку эффективности мы включаем некоторые дополнительные метрики.

Подписывайтесь на канал Rusbase в «Яндекс.Дзен», чтобы ничего не пропустить

Проектные метрики

Классический способ оценки проекта – сравнение времени, стоимости и эффективности с базовым планом. Плюсы этого подхода заключаются в том, что мы можем соблюдать заранее согласованные срок и бюджет. К недостаткам относится сложность планирования исследовательских задач и высокая неопределенность результата.

В своей команде всегда стараемся определить план исследования, разбить задачу на промежуточные этапы – подготовка данных, генерация фичей, моделирование, валидация, – и соблюдать запланированные сроки окончания каждого этапа. Часто это позволяет выявить слабые стороны проекта на ранних этапах.

Agile-метрики

С учетом популярности Agile широко используются гибкие метрики, такие как скорость, с которой команды выполняет заданный объем работы (story point velocity) и процент завершенных задач (percentage of committed stories completed). Они помогают только в том случае, если команда использует в своей работе технологии управления проектами с жесткими временными рамками, такие как Scrum.

Мы широко используем Agile-метрики оценки эффективности в командах дата-инженеров, которые задействованы в создании витрин данных, прототипировании, внедрении модели. 

Финансовые показатели

Зачастую при взаимодействии с бизнес-подразделениями или финансовым департаментом при согласовании бюджетов возникает вопрос о финансовой оценке результатов работы Data Science. Наиболее частым результатом может служить дополнительный доход либо сокращение затрат, которые понесет банк в результате применения той или иной модели.

Более продвинутые метрики, в частности, чистая приведенная стоимость (NPV) и рентабельность инвестиций (ROI), измеряют стоимость поступления денежных средств от проекта по сравнению с затратами. 

Существует множество направлений, в которых прибыль не является целью такие модели тяжело оценивать с точки зрения прибыльности, например, модели кредитных рисков или модели противодействия отмывания доходов, полученных преступным путем. 

Нефинансовые показатели

Так как цели подразделений внутри банка различаются и иногда не связаны с получением прибыли напрямую, возможно применение нефинансовых показателей для оценки проектов.

 

Например, работу исследователей данных риск-подразделения можно оценивать по точности прогноза ожидаемых потерь, так как перед этими специалистами не стоит задачи получения прибыли. В свою очередь точность прогноза резервов снижает волатильность доходности банка и делает его более привлекательным для акционеров. 

Артефакты

Результатом работы Data Science-команды могут быть не только модели, но артефакты, полученные в результате исследования. Мы часто создаем инфраструктуру на основании работы Data Science, в случае когда витрина для разработки модели переиспользуется при создании витрины для промышленного применения модели. Другой пример, это библиотека созданная и дополняемая разработчиками, которая переиспользуется коллегами и ускоряет процесс разработки модели. 

Количество или ценность созданных артефактов может помочь определить, создает ли команда эффективную базовую инфраструктуру для поддержки будущих проектов. Использование артефактов говорит об эффективном использовании существующей инфраструктуры.

Компетенции

Выполненные проекты позволяют команде накапливать компетенции и изучать технологии, которые впоследствии повышают скорость и качество исследований. Объем полученных компетенций свидетельствует об эффективно выстроенном процессе. 

Удовлетворенность заказчика

Удовлетворенность заказчика имеет первостепенное значение, особенно для команд, работающих по Agile (в первом принципе Agile Manifesto говорится, что «Наивысшим приоритетом является удовлетворение потребностей клиента…»).

Net Promoter Score – это одна из таких метрик, рекламируемых маркетологами, которую мы используем для оценки удовлетворения заказчика при взаимодействии с командой Data Science.

Стоит отметить, что команда может быть закрытой, а результаты исследования конфиденциальными, что не позволяет получить полную и критическую обратную связь. Удовлетворенность можно изменить на основании экспертной оценки менеджера проекта или заказчика исследования, а также с помощью прокси-оценок, таких как факт использования разработанной модели или количество активностей, выполненных с использованием этой модели.

Программные метрики

В сложных и технологичных проектах по исследованию данных можно также использовать метрики оценки разработки программного обеспечения. Например, скорость вычисления, частоту технических сбоев при расчете, время устранения сбоев.

Эффективность моделей

Оценка экономической эффективности самой модели – это ключевая группа показателей, которая может вносить решающий вклад в оценку эффективности Data Science-команды. Например, превышает ли она уровень base-line?

Если это так, имеет смысл обсудить результаты с заказчиком и провести ретро-тесты для оценки финансового результата. Если нет, то, возможно, следует прекратить дальнейшую разработку модели (потому что результаты примерно такие же хорошие, как и сейчас) или искать другие методы или источники данных, который позволяет превысить уровень base-line. Для оценки задач бинарной классификации мы используем метрику GINI, значение которой более 50% свидетельствует о высокой эффективности модели.

Оценка на различных этапах проекта позволит обнаружить потенциальные проблемы на ранней стадии и корректировать ход работ. В крайнем случае вы сможете снизить свои потери, завершив проект на ранней стадии.

Фото на обложке и в материале: Unsplash

Источник: rb.ru

Добавить комментарий