признак sentence - предложения с отзывами (о книгах, фильмах и тд),
целевой признак label - оценка отзыва от 1 до 10 включительно, где 1 - отзыв негашивный, 10 - отзыв поизитивный
__________
пробовал случайный лес - RMSE 2.6 (65% точности - плохо)
пробовал стохастический градиентный спуск (SGD) с Tfidf векторизатором и Tfidf трансформеров числовых значений - RMSE 1.9 (72% точности - лучше, но плохо)
пробовал прикрутить решетчатый поиск по 5 блокам к SGD - 75% точности, стало лучше, но не намного
__________
мне кровь из носу нужен результат 80%,
подскажите, пожалуйста, что можно еще попробовать для этой задачи?
а ты предварительно обработал типа лемматизацию и стемминг, удаление стоп-слов? а потом может расширение признаков сделать типа длина отзыва, использование специфических слов или фраз, которые могут быть индикаторами положительных или отрицательных отзывов. как вариант
занимается, но я хз что у него там за задачка
Так а чем вы по итогу признаки из текста достаете ?
тфидф дает числовые признаки, а транформер их преобразовывает - это в SGD модели
Попробуйте взять что-то более современное - Bert, T5, Roberta Там могут быть сложности, если отзывы длинные, но дополнительные признаки должны увеличить точность Ну или дотюнить саму модельку
я думал, но у меня железа нет, долго будет дообучаться :(
Тфидф векторайзер уже имеет под капотом трансформер. Трансформер нужно использовать с каунтвекторайзером же.
Ну тогда предобученными извлекайте признаки, будет быстрее
Ну или пойти обучать на Kaggle или Colab
а сколько стоит колаб? в месяц
https://console.cloud.google.com/marketplace/product/colab-marketplace-image-public/colab
у вас что то настолько большое что в бесплатный колаб не влезает? на каггле больше мощности, если что
берт на нем будет файнтьюнится целый день
Так есть же от Яндекса аналог платный
Который стоит миллион в наносекунду и удобный, аки вилка в глазу
Достаточно лишь часть слоев разморозить, а не учить с 0
как это сделать? или как об этом найти информацию? что нужно искать?
bert fine tune freeze погуглите
https://github.com/e0xextazy/vkcup2022-first-stage Тут решается подобная задача, используя fp16 для экономии памяти и какие-то ещё трюки
Большое спасибо!
Обсуждают сегодня