вам опенсорсные системы для распознавания рукописного русского текста или для распознавания рукописного английского текста с возможностью переобучения? Интересует обработка курсивного текста в первую очередь, с отдельнымми рукописными буквами работать в принципе на основе EMNIST уже можно.
в принципе, такое и самому несложно набросать. самый большой гемор - этап "обучения распознавалки". У меня буквы в школьных и институтских конспектах очень отличаются. как вариант - взять кучу шрифтов и их растровые и/или векторные координаты за основу брать. но, все равно, все не учтешь. Меня эта тема зацепила после инсульта. Ни одна библа не могла сопоставить мой почерк "до" и каракули "после". Человек распознает, программа - нет.
Возможно tesseract ocr вам подойдёт. С последней 4 версией я не работал, но предыдущая версия печатный чек вполне неплохо распознавала. И насколько я помню, можно дообучить своему шрифту, если нужно
Я использовал для подобной задачи: https://github.com/clovaai/deep-text-recognition-benchmark Но нужны слова с лейбелами. Буквы выучит легко, но на основе этого не научится читать, а только распозновать отдельные буквы.
Если кстати есть задача выучить именно один почерк, то весьма выполнима на этой модели. С обобщением для любого почерка гораздо сложнее.
Tesseract c дообучением я использовал уже, но работает он только для печатного текста. Рукописный курсив не распознается принципиально.
Спасибо, попробую работать над комбинациями шрифтов. Проблема будет в генерации синтетического курсива, сейчас мне совсем непонятно, как задать принципы соединения букв.
А никак. Нет универсального решения...
Обсуждают сегодня