(какие порекомендуете?).
2) Попробовать отследить где начинается предложение с негативным словом и где оно заканчивается (есть ли разработанные модели для этого?).
3) Модель которая бы говорила что-то вроде "этот кусок текста мусор и его оценивать не надо, его выкидываем".
4) Topic modeling. То есть все негативные куски текста классифицировать по топикам.
5) Выкинуть этап с regular expressions.
6) Сделать тестовые данные для модели, а не использовать pre-trained модель
1) для такой задачи нужно чтобы модель хорошо понимала смысл текста с учетом далекого контекста. В этом лучшие на сегодня модели трансформеры (unicorn ai) 2) проще будет заставить модель прочитать текст и потом попросить выжимку (дать модели текст, приклеить фразу "и в итоге я хочу" и заставить модель дополнить текст еще 100 словами например) 3) скорее всего это слишком низкоуровневый взгляд на проблему 4) натренировать модель (пре-обученную) классифицировать темы можно. но модель может больше. Например выбрать дальнейшее действие - определенный оператор, игнорирование, открыть таск. Т.е. что у вас там возможно из действий. 5) да. Мне не нравится это решение. Чем меньше данных потеряно от изначальных тем лучше. Это слишком грубое выкидывание данных, потеря контекста. Лучше сохранять все данные о клиенте, склеивать тексты и потом скармливать трансформеру все чтобы трансформер "помнил" контекст даже прошлых разговоров. 6) если вам ехать а не шашечки то не стоит использовать не предобученные модели
Обсуждают сегодня