с текстом? Текст ещё ладно, tesseract/альтернативы, а вот текст в таблицах и (задание со звёздочкой для меня, хоть я и с таблицей пока не справился) произвольной форме?
Тоже тессеракт, там есть какой-то режим специальный, ща поищу. Если нет, дпльше уже только танцы с opencv, мне кажется
Для таблицы кажется -psm=6 У меня давно была задачка распознать анализы из инвитро. Ну в общем там приходилось opencv все черно-белым делать и таблицу вырезать. После этого качество было приемлемым
в tesseract есть функция и для таблиц
finereader
ABBYY еще живы, интересно?
https://www.abbyy.com/
Олдскулы свело 🙂
https://scholar.harvard.edu/dell/publications/layoutparser-unified-toolkit-deep-learning-based-document-image-analysis
Обсуждают сегодня