Ну слова, предложения
По сути мы, люди оперируем семантическими фичами
Смысловые фичи: вместо слов или букв идут концепты, на уровне морфологии, синтаксиса а самое лучшее это семантики: <слова_движения.негатив> + по дереву разбора предложения стрелочками role labeling <живые_существа.насекомые> + <слова_постройка> - в этот паттерн попадают все варианты когда "саранча налетает на посевы" и прочие (char rnn в статье карпаты это просто г....о на палке, я просто офигел как все восхищались как чар рнн сетка генерила тексты похожие на человеческие, хотя они абсолютно бессмысленные и это подавалось как достижение аллоооо!! тупейшая надстройка над байес подходом...) Что эта дает: распознавание феков по стилитике речи, тк например стиль фейка складывается из определенных паттернов или междометий и усиливающих единиц, метафор и прочее. Но тк базы обучения почти нет или ее мало, то по словам сетка не сможет обощить. А если ей помочь, произвести подготовительную обработку и составить слепок текста семантический, то сетке надо будет намного меньше данных, на порядки. Да, это похоже на правила, но это правила на стероидах, точнее правила на нейросетках, по сути этот подход возможен потому, что уже есть предобученные модели для семантики (и вор2веки тоже в эту же сторону идут, и берт тоже), смотрете на НКРЯ http://www.ruscorpora.ru/corpora-sem.html
Обсуждают сегодня