215 похожих чатов

Здравствуйте, имеется вопрос по классификации текста. Сейчас используем лог регрессию для

классификации текстов. На вход модели подаём матрицу, полученную с помощью TF-IDF.

Заказчик спрашивает, можно ли самим задать набор слов, ключевых для каждого класса, что бы модель как бы обращала на них в первую очередь. В качестве реализации этой идеи мне приходит в голову только добавить к уже имеющийся матрицы TF-IDF one-hot фичи этих заранее известных слов. Типо, если слово встречается в тексте, то у соответствующей фичи проставляется флаг. С другой стороны, это слово и так уже должно присутствовать в матрице TF-IDF, тогда есть ли вообще смысл в этой отдельной фичи?... Если вообще смысл пытаться реализовывать подобную "помощь" для модели? И куда лучше копать для улучшения точности классификации текста?

5 ответов

18 просмотров

либо настроить tfidf, либо более тяжёлую артиллерию заюзать. а для начала можно же посмотреть, что для класса логрег самым важным считает

Призрачный-Человек Автор вопроса

да, конечно уже смотрели, но те слова, которая логрег определяет для себя как важные, не совпадают с ожиданием заказчика. Что стоит использовать в качестве тяжёлой артиллерии?

BERT какой

Призрачный-Человек Автор вопроса

какой?

Призрачный Человек
какой?

Да можно и обычный, если дообучить

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта