нужный текст, затем перекрасить кое-что из найденного в зелёный, а кое-что - в красный. Было бы совсем хорошо, если ещё тултипы можно было бы прикрутить в зелёному тексту.
Документы, в целом, простые, никаких OCR не надо, но и не сказать, чтобы была какая-та тривиальная структура. Максимум, что известно - текст, который меня интересует, в таблице. Дальше я уж сам разберусь, что мне надо.
Я с помощью PyPDF2 научился выполнять всё из списка, кроме части, где надо модифицировать файл. Хотел бы посоветоваться с теми, кто делал похожие вещи раньше (сейчас?).
Ну, определять, что перекрашивать — это up to you, но выделение чего-то, например, цветом — как раз то, для чего аннотации и придуманы.
Что ж, я немного освоился в этой либе, но есть вопросы.
Да тут и хайлайт, видите ли, подкачал.
Ну вот расширение области до слова целиком выглядит как самодеятельность библиотеки и явно должно где-то отключаться.
Скажем так, либа умеет делать либо поиск всего текста на странице и запихивание его в один str, либо поиск слов на странице, которые она засовывает в лист.
Обсуждают сегодня