кирилица тоже нужна, на данный момент распознаю только английские слова
У меня была задача конкретно распознавания сканов документов, с кириллицей и латиницей вперемешку, и я игрался с настройками движков Paddleocr только на латинице лучше тессеракта на тех документах на 20-30% На кириллице+латинице ситуация наоборот, paddle на процентов 30 хуже, очень часто не отличает кириллицу от латиницы Улучшили общие результаты до приемлемых классические шаги типа бинаризации по определённым правилам, всякие повороты, замена алгоритмов сжатия стандартных, ресэмплинг, разные параметры page segmentation, но, я думаю, вы это и так пробовали
Это я не делал, в этих делах новичек и я программист, не ML инженер.
Там суть в том что мы можем передать движку картинку без изменений, а можем ее сначала чуть-чуть подправить препроцессингом Например, прогнать через imagemagick
Лиха беда начала )))
Вот я как раз это и ищу
дообучение paddle на собственных данных дает замечательные результаты :) а по умолчанию модель для кириллицы слабая, да
Обсуждают сегодня