Колллеги, кто-то работал с сегментацией PDF документов на колонки? Я

Question

Колллеги, кто-то работал с сегментацией PDF документов на колонки? Я

пыталась решить задачу с помощью разметки и тренировки layout-parser. Но при том что разметили около1500 качество все равно так себе

Подскажите, пожалуйста, какие вообще варианты есть?
(Работаю с резюме, где может быть разный layout).

#nlp #programming #russian

0

15.07.2022

3 ответов

46 просмотров

Майя Автор вопроса

PaddleOCR слышала про него, но не пробовала, смущает другой фреймворк и описания на китайском, но можно будет попробовать, спасибо огромное!

0

15.07.2022

Grigory Frantsuzov

Майя
PaddleOCR слышала про него, но не пробовала, смуща...

он работает и его даже можно дообучать

0

15.07.2022

Сергей Шульга · Accepted Answer

Сергей Шульга

Майя
PaddleOCR слышала про него, но не пробовала, смуща...

Он хорошо работает и быстро, только OCR на русском хромает, в предобученных не было цифр + сегментатор кропит bbox-ы слишком плотно к границе символов, в общем много шума на выходе, но в вашей задаче он реально подойдёт.

0

15.07.2022

170 похожих чатов

Колллеги, кто-то работал с сегментацией PDF документов на колонки? Я

3 ответов

Похожие вопросы