классификации текстов. На вход модели подаём матрицу, полученную с помощью TF-IDF.
Заказчик спрашивает, можно ли самим задать набор слов, ключевых для каждого класса, что бы модель как бы обращала на них в первую очередь. В качестве реализации этой идеи мне приходит в голову только добавить к уже имеющийся матрицы TF-IDF one-hot фичи этих заранее известных слов. Типо, если слово встречается в тексте, то у соответствующей фичи проставляется флаг. С другой стороны, это слово и так уже должно присутствовать в матрице TF-IDF, тогда есть ли вообще смысл в этой отдельной фичи?... Если вообще смысл пытаться реализовывать подобную "помощь" для модели? И куда лучше копать для улучшения точности классификации текста?
либо настроить tfidf, либо более тяжёлую артиллерию заюзать. а для начала можно же посмотреть, что для класса логрег самым важным считает
да, конечно уже смотрели, но те слова, которая логрег определяет для себя как важные, не совпадают с ожиданием заказчика. Что стоит использовать в качестве тяжёлой артиллерии?
BERT какой
какой?
Да можно и обычный, если дообучить
Обсуждают сегодня