менее чистых текстов из PDF? Понятно, что есть куча библиотек, которые достают текст, но там обычно куча мусорного текста типа страниц, названий журнала и бог знает что ещё.
Попробуйте Unitext из pullenti.ru, там SDK пытается при извлечении текста из PDF решать задачу объединения страниц с удалением нумерации и колонтитулов, убирает переносы, объединяя слова, восстанавливает сноски и пр. Но многое зависит от конкретных примеров.
А чисто теоретически, сетка сможет отвечать картинками, по теме запроса?
Обсуждают сегодня