дербанить пдф книги на текст так, чтобы переводить его в удобоваримый для машинного обучения вид?
pdfminer вроде норм для этого
я пользуюсь ПДФплумбером—настройкой над ПДФмайнером с некоторыми дополнительными фичами. Беда в том, что текст то оно вытряхивает. Но становится значительной проблемой корректно разделить его на предложения. Так, чтобы после заголовка без точки его не присобачивало к следующему предложению. И избегать такого рода проблем. Точно так же, оно запихивает в текст всякую пакость, вроде сносок, колонтитулов и подписей к рисункам. Как В совсем бы идеальном случае хорошо бы сообразить как отделять заголовки
Обсуждают сегодня