Коллеги, всем приветик! Есть какие-то готовые решения для извлечения более

Question

Коллеги, всем приветик! Есть какие-то готовые решения для извлечения более

менее чистых текстов из PDF? Понятно, что есть куча библиотек, которые достают текст, но там обычно куча мусорного текста типа страниц, названий журнала и бог знает что ещё.

#nlp #programming #russian

0

06.06.2023

2 ответов

35 просмотров

Квадрат Гипотенузы

Константин Кузнецов
Попробуйте Unitext из pullenti.ru, там SDK пытаетс...

А чисто теоретически, сетка сможет отвечать картинками, по теме запроса?

0

06.06.2023

Константин Кузнецов · Accepted Answer

Попробуйте Unitext из pullenti.ru, там SDK пытается при извлечении текста из PDF решать задачу объединения страниц с удалением нумерации и колонтитулов, убирает переносы, объединяя слова, восстанавливает сноски и пр. Но многое зависит от конкретных примеров.

170 похожих чатов

Коллеги, всем приветик! Есть какие-то готовые решения для извлечения более

2 ответов

Похожие вопросы