Может ли кто-то подсказать относительно простые и удобные методы, как

Question

Python

A L

Может ли кто-то подсказать относительно простые и удобные методы, как

дербанить пдф книги на текст так, чтобы переводить его в удобоваримый для машинного обучения вид?

#backend #programming #python #russian

0

28.06.2022

2 ответов

42 просмотра

A L Автор вопроса

Артур Шадараев
pdfminer вроде норм для этого

я пользуюсь ПДФплумбером—настройкой над ПДФмайнером с некоторыми дополнительными фичами. Беда в том, что текст то оно вытряхивает. Но становится значительной проблемой корректно разделить его на предложения. Так, чтобы после заголовка без точки его не присобачивало к следующему предложению. И избегать такого рода проблем. Точно так же, оно запихивает в текст всякую пакость, вроде сносок, колонтитулов и подписей к рисункам. Как В совсем бы идеальном случае хорошо бы сообразить как отделять заголовки

0

28.06.2022

Артур Шадараев · Accepted Answer

Артур Шадараев

pdfminer вроде норм для этого

0

28.06.2022

170 похожих чатов

Может ли кто-то подсказать относительно простые и удобные методы, как

2 ответов

Похожие вопросы