Здравствуйте, имеется вопрос по классификации текста. Сейчас используем лог регрессию для

Question

Здравствуйте, имеется вопрос по классификации текста. Сейчас используем лог регрессию для

классификации текстов. На вход модели подаём матрицу, полученную с помощью TF-IDF.

Заказчик спрашивает, можно ли самим задать набор слов, ключевых для каждого класса, что бы модель как бы обращала на них в первую очередь. В качестве реализации этой идеи мне приходит в голову только добавить к уже имеющийся матрицы TF-IDF one-hot фичи этих заранее известных слов. Типо, если слово встречается в тексте, то у соответствующей фичи проставляется флаг. С другой стороны, это слово и так уже должно присутствовать в матрице TF-IDF, тогда есть ли вообще смысл в этой отдельной фичи?... Если вообще смысл пытаться реализовывать подобную "помощь" для модели? И куда лучше копать для улучшения точности классификации текста?

#database #programming #russian #software

0

23.08.2021

5 ответов

40 просмотров

Призрачный Человек Автор вопроса

да, конечно уже смотрели, но те слова, которая логрег определяет для себя как важные, не совпадают с ожиданием заказчика. Что стоит использовать в качестве тяжёлой артиллерии?

0

23.08.2021

Andrey

BERT какой

0

23.08.2021

Призрачный Человек Автор вопроса

какой?

0

23.08.2021

Vladislav Mostovik

Призрачный Человек
какой?