рекомендации, что с этим делать.
Вот например, есть у меня книги в ПДФках. А надо взять книг 60-80 и дообучить на них Берт.
Ну и вот как мне их распотрошить так, чтобы Берт их мог переварить? копировать вручную не предлагать.
pdf -> text (через ocr) написать программу которая разобьет текст на групппы слов
Обсуждают сегодня