VESOLV AutoML: DevOps для Data Scientist.
Почему мы развиваем свое решение по AutoML?
Свой AutoML качественнее настраивается под различные задачи. Существующие открытые automl не универсальны и часто не подходят под поставленные бизнес-задачи.




Для чего нужен AutoML VESOLV?
Дата сайентистам (Date Scientist) и аналитикам приходится выполнять много рутинной работы: от трудоемкой подготовки данных до перебора методов и алгоритмов, которые на этих данных отработают лучшим образом. Причём неважно, идёт ли речь о ключевых для бизнеса задачах или вспомогательных, большая часть времени всегда уходит на рутину. Чтобы экономить время и реализовывать проекты с меньшими затратами и без потери качества набирает подход AutoML.
Автоматизированное машинное обучение (AutoML) — это процесс автоматизации сквозного процесса применения машинного обучения к реальным задачам. AutoML имеет тенденцию вовлекать максимальное количество шагов в конвейере ML с минимальными затратами человеческих усилий и без ущерба для производительности модели.
Auto ML представляет собой алгоритм, который умеет создавать другие модели. А они, в свою очередь, уже решают прикладные задачи — например, прогнозируют платежеспособность клиента при выдаче кредита или помогают отделять законопослушных клиентов от нарушителей.


Аспекты автоматизированного машинного обучения (AutoML)
Автоматизированное машинное обучение можно рассматривать как стандартный процесс машинного обучения с автоматизацией некоторых этапов. AutoML включает в себя:
- Автоматизация определенных частей подготовки данных, например: вменение, стандартизация, выбор характеристик и т. д.
- Возможность генерировать различные модели автоматически, например, случайный сеточный поиск, оптимизация байесовских гиперпараметров и т. д.
- Получение наилучшей модели из всех сгенерированных моделей, которая в большинстве случаев является ансамблем, например, подбор ансамбля, укладка и т.д.
Чем мы сможем помочь / решение / схема работ
- Анализ бизнес процессов и предложение оптимальных и наиболее эффективных сценариев использования AutoML.
- Формулирование задачи на языке бизнес- процесса и на языке понятном для data scientist.
- Формулирование технического задания.
- Разработка MVP.
- Тестирование, разработка продуктивной версии.
- Последующая поддержка и обновления.




Инструменты и технологии
Для решения задачи машинного обучения (ML) требуется пройти множество шагов: от очистки данных и подготовки датасета, выбора наиболее информативных признаков и преобразования признаков пространства до подбора модели ML и настройки её гиперпараметров.
Такую последовательность удобно представить в виде:
- Линейный пайплайн. Даже для линейного пайплайна на подбор структуры и параметров могут уйти недели.


- Нелинейный пайплайн.


- Стекинг, вариативная модель. В процессе решения сложных задач пайплайны приобретают более замысловатую структуру.

