опенсорсный? нет
наверное кто угодно :) Я в своё время ковырялся со всякими Abbyy OCR, например. они значительно лучше
если будешь брать Tesseract, то смотри в сторону 4 мажорной версии - он вроде как получше распознаёт, только медленнее (по крайней мере так было раньше, пока там симды худо-бедно завозили). Третья версия использует другой подход для распознавания. И да, tesseract внутри практически не имеет пред и пост обработки распознавания, так что тебе придётся всё это колхозить самому, если хочешь добиться более-менее вменяемого качества распознавания
Ля, окей, спасибо за совет)
Мб вот это поможет как стартовая точка: 1) Кое-какой обзор: https://github.com/ZaMaZaN4iK/ConfsANDProps/blob/master/Conferences/lvee2018winter/LVEE2018.pdf 2) Либа для предобработки (сорре, на С++. Под Rust будет портануть легко при необходимости) : https://github.com/ZaMaZaN4iK/PRLib
Есть такая штука как Docr от Handl (ex-DBrain), вроде хорошая штука)
Спасибо, буду иметь в виду)
если не опенсорсная, то я бы лучше посмотрел на решения компаний, которые на рынке уже много лет. Тот же Abbyy Fine Reader (и Abbyy OCR, который под капотом) имеет очень давнюю историю и большое кол-во фичей, которые оттачивались десятилетиями
Обсуждают сегодня