SpaCy
Лицензия MIT.
Это библиотека для расширенной обработки естественного языка в Python и Cython. Он основан на самых последних исследованиях и с первого дня разрабатывался для использования в реальных продуктах.
SpaCy поставляется с предварительно обученными конвейерами и в настоящее время поддерживает токенизацию и обучение для 60+ языков. Он включает современные модели скорости и нейронные сети для тегирования, синтаксического анализа, распознавания именованных объектов, классификации текста и т. д., многозадачное обучение с предварительно обученными преобразователями, такими как BERT, а также готовую к работе систему обучения и простую модель.
Клиенты: Википедия
Кейсы
ADAM: система ответов на вопросы
Система ответов на вопросы, которая извлекает ответы из Википедии на вопросы, заданные на естественном языке.




Преимущества
- Поддержка 60+ языков;
Обученные конвейеры для разных языков и задач - Многозадачное обучение с предварительно обученными трансформаторами, такими как BERT;
- Поддержка предварительно обученных векторов слов и вложений;
- Современная скорость;
- Готовая к производству система обучения;
- Лингвистически мотивированная токенизация;
- Компоненты для распознавания именованных сущностей, тегов частей речи, синтаксического анализа зависимостей, сегментации предложений, классификации текста, лемматизации, морфологического анализа, связывания сущностей и т. д;
- Легко расширяется с помощью настраиваемых компонентов и атрибутов;
- Поддержка пользовательских моделей в PyTorch, TensorFlow и других структур;
- Встроенные визуализаторы для синтаксиса и NER;
- Простая упаковка модели , развертывание и управление рабочим процессом;
- Надежная, тщательно проверенная точность.

