VESOLV AutoML: DevOps для Data Scientist.

Почему мы развиваем свое решение по AutoML?

Свой AutoML качественнее настраивается под различные задачи. Существующие открытые automl не универсальны и часто не подходят под поставленные бизнес-задачи.

Для чего нужен AutoML VESOLV?

Дата сайентистам (Date Scientist) и аналитикам приходится выполнять много рутинной работы: от трудоемкой подготовки данных до перебора методов и алгоритмов, которые на этих данных отработают лучшим образом. Причём неважно, идёт ли речь о ключевых для бизнеса задачах или вспомогательных, большая часть времени всегда уходит на рутину. Чтобы экономить время и реализовывать проекты с меньшими затратами и без потери качества набирает подход AutoML.

Автоматизированное машинное обучение (AutoML) — это процесс автоматизации сквозного процесса применения машинного обучения к реальным задачам. AutoML имеет тенденцию вовлекать максимальное количество шагов в конвейере ML  с минимальными затратами человеческих усилий и без ущерба для производительности модели.

Auto ML представляет собой алгоритм, который умеет создавать другие модели. А они, в свою очередь, уже решают прикладные задачи — например, прогнозируют платежеспособность клиента при выдаче кредита или помогают отделять законопослушных клиентов от нарушителей.

Аспекты автоматизированного машинного обучения (AutoML)

Автоматизированное машинное обучение можно рассматривать как стандартный процесс машинного обучения с автоматизацией некоторых этапов. AutoML включает в себя:

  • Автоматизация определенных частей подготовки данных, например: вменение, стандартизация, выбор характеристик и т. д.
  • Возможность генерировать различные модели автоматически, например, случайный сеточный поиск, оптимизация байесовских гиперпараметров и т. д.
  • Получение наилучшей модели из всех сгенерированных моделей, которая в большинстве случаев является ансамблем, например, подбор ансамбля, укладка и т.д.

Чем мы сможем помочь / решение / схема работ

  • Анализ бизнес процессов и предложение оптимальных и наиболее эффективных сценариев использования AutoML.
  • Формулирование задачи на языке бизнес- процесса и на языке понятном для data scientist.
  • Формулирование технического задания.
  • Разработка MVP.
  • Тестирование, разработка продуктивной версии.
  • Последующая поддержка и обновления.

Инструменты и технологии

Для решения задачи машинного обучения (ML) требуется пройти множество шагов: от очистки данных и подготовки датасета, выбора наиболее информативных признаков и преобразования признаков  пространства до подбора модели ML и настройки её гиперпараметров.

Такую последовательность удобно представить в виде:

  • Линейный пайплайн.  Даже для линейного пайплайна на подбор структуры и параметров могут уйти недели.
  • Нелинейный пайплайн.
  • Стекинг, вариативная модель. В процессе решения сложных задач пайплайны приобретают более замысловатую структуру.

В зависимости от задачи, также используются другие популярные AutoML фреймворки