Tesseract

Разработана компанией Hewlett Packard, затем компаний Google, распространяется под лицензий Apache_License_2.0. 

Открытая программная библиотека для распознавания текста — OCR (Optical character recognition). 

Клиенты: Google, Intel, Mail.ru: Одноклассники, Юла, Ситимобил, myTarget, ICQ, Игры@mail.ru и т.д.

Платформы: Linux, Mac OS X и др. UNIX-подобные, Windows

Версии: On-Premise

Кейсы

Распознавание текста для антиспам защиты сервисов mail.ru


Решение: создание  алгоритма на основе Tesseract для распознавания спама в тексте и на картинках.

Результат: благодаря  решению, удалось создать недорогое решение для защиты от спама в  Mail.ru: Одноклассники, Юла, Ситимобил, что позволило избавить пользователей от большого количества назойливой рекламы.

Преимущества

Эффективный механизм оптического распознавания символов для различных операционных систем, поддерживающий различные форматы  TIFF, PNG, формат обмена файлами JPEG, JP2 и WebP и др.