Доброго дня. Скажите, не встречался ли кто-нибудь с задачами классификации

Question

Доброго дня. Скажите, не встречался ли кто-нибудь с задачами классификации

документов (напр., различных форм бухгалтерских отчетов) на основе NLP? Я планирую засовывать страницы в тессеракт и обучать классификатор BERT на датасете с полным текстом страниц и метками типа документов, но из-за объема текста на странице мне кажется, что должны быть более простые и быстрые в работе решения.

#database #programming #russian #software

0

29.06.2020

2 ответов

37 просмотров

Igor Shatalin

У Берта максимальная входная последовательность - 512 токенов (слова, подслова, пунктуация), так что весь документ в него не влезет. Можно разбивать текст на чанки и классифицировать их. И потом как-то объединять метки... Может, вам подойдёт вариант: получить от Берта усреднённый вектор всего документа, а потом кластеризовать полученные документы.

0

29.06.2020

Gleb Glushkov · Accepted Answer

Gleb Glushkov

Посмотрите работу от майкрософта https://github.com/microsoft/unilm

0

29.06.2020

215 похожих чатов

Доброго дня. Скажите, не встречался ли кто-нибудь с задачами классификации

2 ответов

Похожие вопросы