Tesseract OCR

Tesseract

Разработана компанией Hewlett Packard, затем компаний Goggle , распространяется под лицензий Apache_License_2.0

Открытая программная библиотека для распознавания текста — OCR (Optical character recognition)

Клиенты: Google, Intel,  Mail.ru: Одноклассники, Юла, Ситимобил, myTarget, ICQ, Игры@mail.ru и т.д.

Платформы: Linux, Mac OS X и др. UNIX-подобные, Windows

Версии: On-Premise

Кейсы

Распознавание текста для антиспам защиты сервисов mail.ru


Решение: создание  алгоритма на основе Tesseract для распознавания спама в тексте и на картинках.

Результат: благодаря  решению , удалось создать недорогое решение для защиты от спама в  Mail.ru: Одноклассники, Юла, Ситимобил, что позволило избавить пользователей от большого количества назойливой рекламы.

Нейронная сеть для нахождение аномалий на МРТ, GE Healthcare


Решение: использование TensorFlow для обучения нейронной сети и последующего определения аномалий во время исследования МРТ головного мозга. Разработка структуры для интеллектуального размещения срезов MRI (ISP).

Результаты: тесты показали, что благодаря ИИ, время, необходимое оператору сканирования для определения местоположения аномалий на МРТ, может быть уменьшено на 40%-60%. Кроме того, замечено снижение ошибок и повышение точности, что может привести к снижению количества повторных вызовов пациентов на обследование и повышению качества диагностики.

Преимущества

Tesseract is an optical character recognition engine for various operating systems поддерживающий различные форматы  TIFF, PNG, формат обмена файлами JPEG, JP2 и WebP и др.