SpaCy

Лицензия MIT.

Это библиотека для расширенной обработки естественного языка в Python и Cython. Он основан на самых последних исследованиях и с первого дня разрабатывался для использования в реальных продуктах.

SpaCy поставляется с предварительно обученными конвейерами и в настоящее время поддерживает токенизацию и обучение для 60+ языков. Он включает современные модели скорости и нейронные сети для тегирования, синтаксического анализа, распознавания именованных объектов, классификации текста и т. д., многозадачное обучение с предварительно обученными преобразователями, такими как BERT, а также готовую к работе систему обучения и простую модель.

...

Сайт проекта

Платформы: Linux, Windows, macOS, OSX

Кейсы

ADAM: система ответов на вопросы

Система ответов на вопросы, которая извлекает ответы из Википедии на вопросы, заданные на естественном языке.

Преимущества

  • Поддержка 60+ языков;
  • Обученные конвейеры для разных языков и задач;
  • Многозадачное обучение с предварительно обученными трансформаторами, такими как BERT;
  • Поддержка предварительно обученных векторов слов и вложений;
  • Современная скорость;
  • Готовая к производству система обучения;
  • Лингвистически мотивированная токенизация;
  • Компоненты для распознавания именованных сущностей, тегов частей речи, синтаксического анализа зависимостей, сегментации предложений, классификации текста, лемматизации, морфологического анализа, связывания сущностей и т. д;
  • Легко расширяется с помощью настраиваемых компонентов и атрибутов;
  • Поддержка пользовательских моделей в PyTorch, TensorFlow и других структур;
  • Встроенные визуализаторы для синтаксиса и NER;
  • Простая упаковка модели , развертывание и управление рабочим процессом;
  • Надежная, тщательно проверенная точность.