215 похожих чатов

Делаю модель для мультиклассовой классификации датасет: 20к строк,

признак sentence - предложения с отзывами (о книгах, фильмах и тд),
целевой признак label - оценка отзыва от 1 до 10 включительно, где 1 - отзыв негашивный, 10 - отзыв поизитивный

__________

пробовал случайный лес - RMSE 2.6 (65% точности - плохо)

пробовал стохастический градиентный спуск (SGD) с Tfidf векторизатором и Tfidf трансформеров числовых значений - RMSE 1.9 (72% точности - лучше, но плохо)

пробовал прикрутить решетчатый поиск по 5 блокам к SGD - 75% точности, стало лучше, но не намного

__________

мне кровь из носу нужен результат 80%,
подскажите, пожалуйста, что можно еще попробовать для этой задачи?

22 ответов

74 просмотра

а ты предварительно обработал типа лемматизацию и стемминг, удаление стоп-слов? а потом может расширение признаков сделать типа длина отзыва, использование специфических слов или фраз, которые могут быть индикаторами положительных или отрицательных отзывов. как вариант

занимается, но я хз что у него там за задачка

Так а чем вы по итогу признаки из текста достаете ?

Дмитрий-Неледва Автор вопроса
Viktor
Так а чем вы по итогу признаки из текста достаете ...

тфидф дает числовые признаки, а транформер их преобразовывает - это в SGD модели

Дмитрий Неледва
тфидф дает числовые признаки, а транформер их прео...

Попробуйте взять что-то более современное - Bert, T5, Roberta Там могут быть сложности, если отзывы длинные, но дополнительные признаки должны увеличить точность Ну или дотюнить саму модельку

Дмитрий-Неледва Автор вопроса
Viktor
Попробуйте взять что-то более современное - Bert, ...

я думал, но у меня железа нет, долго будет дообучаться :(

Дмитрий Неледва
тфидф дает числовые признаки, а транформер их прео...

Тфидф векторайзер уже имеет под капотом трансформер. Трансформер нужно использовать с каунтвекторайзером же.

Дмитрий Неледва
я думал, но у меня железа нет, долго будет дообуча...

Ну тогда предобученными извлекайте признаки, будет быстрее

Дмитрий-Неледва Автор вопроса
Viktor
Ну или пойти обучать на Kaggle или Colab

а сколько стоит колаб? в месяц

Дмитрий Неледва
а сколько стоит колаб? в месяц

https://console.cloud.google.com/marketplace/product/colab-marketplace-image-public/colab

Дмитрий Неледва
а сколько стоит колаб? в месяц

у вас что то настолько большое что в бесплатный колаб не влезает? на каггле больше мощности, если что

Дмитрий-Неледва Автор вопроса
Дмитрий Неледва
а сколько стоит колаб? в месяц

Так есть же от Яндекса аналог платный

Elmo
Так есть же от Яндекса аналог платный

Который стоит миллион в наносекунду и удобный, аки вилка в глазу

Дмитрий Неледва
берт на нем будет файнтьюнится целый день

Достаточно лишь часть слоев разморозить, а не учить с 0

Дмитрий-Неледва Автор вопроса
Viktor
Достаточно лишь часть слоев разморозить, а не учи...

как это сделать? или как об этом найти информацию? что нужно искать?

Дмитрий Неледва
как это сделать? или как об этом найти информацию?...

https://github.com/e0xextazy/vkcup2022-first-stage Тут решается подобная задача, используя fp16 для экономии памяти и какие-то ещё трюки

Дмитрий-Неледва Автор вопроса

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта