Gensim

Лицензия LGPL. 

Gensim реализован на Python и Cython для повышения производительности. Gensim предназначен для обработки больших текстовых коллекций с использованием потоковых данных и инкрементальных онлайн-алгоритмов, что отличает его от большинства других программных пакетов машинного обучения, ориентированных только на обработку в памяти.

Клиенты: Amazon Retail, Cisco Security, Channel 4, Juju, Issuu, 12K Research, Stillwater Supercomputing, SiteGround, Capital One

Платформы: Linux, Windows, macOS

Кейсы

  • Amazon Retail, Розничная торговля, Сходство документов.
  • Национальные институты здравоохранения, Здоровье, Обработка грантов и публикаций с помощью word2vec.
  • Cisco Security, Безопасность, Крупномасштабное обнаружение мошенничества.
  • Mindseye Legal, Юрисприденция, Сходства в юридических документах.
  • Channel 4 Media, СМИ, Система рекомендаций.
  • Talentpair, HR, Подбор кандидатов в высокотехнологичном рекрутинге.
  • Juju, HR, Предоставление неочевидных предложений о смежных вакансиях.
  • Tailwind Media, СМИ, Размещение интересного и релевантного контента в Pinterest.
  • Issuu Media, СМИ, Модуль LDA Gensim лежит в основе анализа, который проводится для каждой загруженной публикации, чтобы выяснить ее смысл.
  • Search Metrics, Контент маркетинг, Gensim word2vec используется для дезамбигуации (устранение противоречий) сущностей в поисковой оптимизации.
  • 12K Research, СМИ, Анализ сходства документов в статьях СМИ.
  • Stillwater Supercomputing, Аппаратное обеспечение, Понимание документов и ассоциации с word2vec.
  • SiteGround, Веб хостинг, Ансамблевая поисковая система, использующая различные модели вкраплений и сходства, включая word2vec, WMD и LDA.
  • Capital One, Финансы, Тематическое моделирование для поиска жалоб клиентов.

Преимущества

Все алгоритмы не зависят от памяти  (могут обрабатывать ввод, превышающий размер ОЗУ, потоковый, вне ядра). 

Интуитивно понятные интерфейсы легко подключить свой собственный входной  поток данных (тривиальный потоковый API), легко расширяется с помощью других алгоритмов векторного пространства (API тривиального преобразования). 

Эффективные многоядерные реализации популярных алгоритмов, таких как скрытый семантический анализ онлайн (LSA / LSI / SVD) , скрытое распределение Дирихле (LDA) , случайные проекции (RP) , иерархический процесс Дирихле (HDP) или глубокое обучение word2vec .

Распределенные вычисления : может запускать скрытый семантический анализ и скрытое распределение Дирихле на кластере компьютеров.