170 похожих чатов

Всем привет! Подскажите, пожалуйста, есть ли какой-то метод приводить матерные слова

в их исходники? Какая-то лемматизация матерных слов или приведение к начальной форме
Пример: zalyпе, залупы, м а н д а в о ш е к, заепись, пох..сты, уе...ков, на*бывала, некуй, га.ндо.ны, ху🤡ло, за€...али, хххххххууууууййййииии, пидорпидорпидорпидорпидор
Заранее спасибо)

4 ответов

14 просмотров

Кто-то писал, что лучше всего себя в конце концов показали словари

А какую вы решаете задачу? Может быть, проще сразу классифицировать, насколько строка токсична? Вот есть небольшая модель для этого. Не со всеми вашими примерами справляется, правда https://huggingface.co/cointegrated/rubert-tiny-toxicity

Ростислав-Корст Автор вопроса
Mi Khovrichev
А какую вы решаете задачу? Может быть, проще сразу...

Как раз задача определения токсичности, тестил эту модель, но на большом количестве подобных этим примеров модель говорит, что все нетоксично

Ростислав Корст
Как раз задача определения токсичности, тестил эту...

Если ваша задача – определять в офлайне, то можно, конечно, нагенерировать промпты или обучить собственную t5/bart (то есть seq2seq задача восстановления, а затем ловить по словарям). Я попробовал сейчас с ллм – примерно половина опробованных моделей отказываются, остальные дают некорректный результат. Я бы предложил начать с fuzzy matching. Можно настроить расстояние Левенштейна для достижения приемлемого баланса между false poitive / false negative срабатываниями https://github.com/seatgeek/thefuzz Это и быстрее будет (в чатах будет работать)

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта