документов (напр., различных форм бухгалтерских отчетов) на основе NLP? Я планирую засовывать страницы в тессеракт и обучать классификатор BERT на датасете с полным текстом страниц и метками типа документов, но из-за объема текста на странице мне кажется, что должны быть более простые и быстрые в работе решения.
Посмотрите работу от майкрософта https://github.com/microsoft/unilm
У Берта максимальная входная последовательность - 512 токенов (слова, подслова, пунктуация), так что весь документ в него не влезет. Можно разбивать текст на чанки и классифицировать их. И потом как-то объединять метки... Может, вам подойдёт вариант: получить от Берта усреднённый вектор всего документа, а потом кластеризовать полученные документы.
Обсуждают сегодня