классифицировать тексты по мета-уровню, человеческим скиллам: например я хочу знать, где в репликах в чатботе выражается мнение, и отделять все остальные реплики, где мнение по любым поводам не выражается.
Сюда же относятся и другие сильно размытые, абстрактные категории типа: выражение сомнения в чем-то(но не важно в чем) и тп
В принципе, это похоже на сентимент анализ мультикласс, делается бертом и похожими. Но в чем проблема: ведь когда мы возьмем датасет и будем учить модель, она будет выучивать кучу фич, которые нам не нужны, и в первую очередь это тематики, то есть если сделаем датасет и там будет 5 тематик с мнением то модель выучит и тематики, а на остальные тематики не станет понимать мнение. Понятно, что надо разнообразно значит.
но есть ли какой-то подход, который на корню проникает в глубокий смысл высказывания? (да, на регэкспах не предлагать)
- с подчас огромной избыточностью придётся смириться. - код ЧБ не проникает в смысл и лет 100 ещё не сможет, увы. Он всего лишь имитирует.
Обсуждают сегодня