Всем привет! Подскажите, пожалуйста, есть ли какой-то метод приводить матерные слова

Question

Всем привет! Подскажите, пожалуйста, есть ли какой-то метод приводить матерные слова

в их исходники? Какая-то лемматизация матерных слов или приведение к начальной форме
Пример: zalyпе, залупы, м а н д а в о ш е к, заепись, пох..сты, уе...ков, на*бывала, некуй, га.ндо.ны, ху🤡ло, за€...али, хххххххууууууййййииии, пидорпидорпидорпидорпидор
Заранее спасибо)

#nlp #programming #russian

0

26.07.2023

4 ответов

14 просмотров

Mi Khovrichev

А какую вы решаете задачу? Может быть, проще сразу классифицировать, насколько строка токсична? Вот есть небольшая модель для этого. Не со всеми вашими примерами справляется, правда https://huggingface.co/cointegrated/rubert-tiny-toxicity

0

26.07.2023

Ростислав Корст Автор вопроса

Mi Khovrichev
А какую вы решаете задачу? Может быть, проще сразу...

Как раз задача определения токсичности, тестил эту модель, но на большом количестве подобных этим примеров модель говорит, что все нетоксично

0

26.07.2023

Mi Khovrichev

Ростислав Корст
Как раз задача определения токсичности, тестил эту...

Если ваша задача – определять в офлайне, то можно, конечно, нагенерировать промпты или обучить собственную t5/bart (то есть seq2seq задача восстановления, а затем ловить по словарям). Я попробовал сейчас с ллм – примерно половина опробованных моделей отказываются, остальные дают некорректный результат. Я бы предложил начать с fuzzy matching. Можно настроить расстояние Левенштейна для достижения приемлемого баланса между false poitive / false negative срабатываниями https://github.com/seatgeek/thefuzz Это и быстрее будет (в чатах будет работать)

0

26.07.2023

Dmitry · Accepted Answer

Dmitry

Кто-то писал, что лучше всего себя в конце концов показали словари

0

26.07.2023

170 похожих чатов

Всем привет! Подскажите, пожалуйста, есть ли какой-то метод приводить матерные слова

4 ответов

Похожие вопросы