Tesseract

Разработана компанией Hewlett Packard, затем компаний Google, распространяется под лицензий Apache_License_2.0.

Открытая программная библиотека для распознавания текста — OCR (Optical character recognition).

Клиенты: Google, Intel, Mail.ru: Одноклассники, Юла, Ситимобил, myTarget, ICQ, Игры@mail.ru и т.д.

...

Описание

Платформы: Linux, Mac OS X и др. UNIX-подобные, Windows

Версии: On-Premise

Кейсы

Распознавание текста для антиспам защиты сервисов mail.ru

Решение: создание алгоритма на основе Tesseract для распознавания спама в тексте и на картинках.

Результат: благодаря решению, удалось создать недорогое решение для защиты от спама в Mail.ru: Одноклассники, Юла, Ситимобил, что позволило избавить пользователей от большого количества назойливой рекламы.

Преимущества

Эффективный механизм оптического распознавания символов для различных операционных систем, поддерживающий различные форматы TIFF, PNG, формат обмена файлами JPEG, JP2 и WebP и др.