169 похожих чатов

Всем привет! Буду благодарен за любую помощь. Задача такая - есть

текст, обычно это короткое предложение, до 5 слов, но может быть и длиннее - до 256 символов) Надо как-то понять это сообщение флуд или нет. Ниже указал примеры сообщений которые считаются и не считаются флудом. Я не сильно знаком с NLP и Machine Learning в целом, но немного уже попытался сделать сам и у меня возникли проблемы с сообщениями по типу "собака восемь игорь григорий", то есть по факту это как бы не флуд, но смысловой нагрузки никакой сообщение не несет, такие сообщения НЕ ОБЯЗАТЕЛЬНО детектить как флуд, но все же было бы неплохо если бы они тоже распозновались. Основное требовние это предложения по типу 1q2w3e4r5t где все символы уникальны но сообщение явный флуд. Также проблема с языками (про английский пока что можно не беспокоится, но желательно на него тоже такое реализовать). Также проблема со сленгом, его в русском языке немало и надо как-то не детектить его как флуд.

Насколько я понимаю мне надо сначала определиться с моделью, какая модель лучше всего для этого подойдет? Где найти датасет для обучения этой модели? Буду благодарен за любую помощь, спасибо заранее.
В какую сторону мне надо копать? Буду благодарен за любую помощь,

Примеры флуда: (сообщение меньше 10 символов никогда не считается флудом)
ахахахахах
лоооооооллл
собака восемь игорь григорий
1i8s0b2ma6x
888usada4tw2

Примеры не флуда:
всем привет
ку бро
xd lol
прив бро кд чд?

4 ответов

31 просмотр

чтоб понять флуд или нет, нужно знать топик чата и проверять по нему причем не только последнее собщение а еще и историю переписки

По идее большие модели, особенно топовые проприетарные типа Соннета должны решать это и без тюнинга, чисто промптом. То же самое и новые большие Лламы. По-моему это единственный адекватный путь. Остальные - просто время тратить.

Я бы на словарях решил, имхо, может работать и без ML

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта