текст, обычно это короткое предложение, до 5 слов, но может быть и длиннее - до 256 символов) Надо как-то понять это сообщение флуд или нет. Ниже указал примеры сообщений которые считаются и не считаются флудом. Я не сильно знаком с NLP и Machine Learning в целом, но немного уже попытался сделать сам и у меня возникли проблемы с сообщениями по типу "собака восемь игорь григорий", то есть по факту это как бы не флуд, но смысловой нагрузки никакой сообщение не несет, такие сообщения НЕ ОБЯЗАТЕЛЬНО детектить как флуд, но все же было бы неплохо если бы они тоже распозновались. Основное требовние это предложения по типу 1q2w3e4r5t где все символы уникальны но сообщение явный флуд. Также проблема с языками (про английский пока что можно не беспокоится, но желательно на него тоже такое реализовать). Также проблема со сленгом, его в русском языке немало и надо как-то не детектить его как флуд.
Насколько я понимаю мне надо сначала определиться с моделью, какая модель лучше всего для этого подойдет? Где найти датасет для обучения этой модели? Буду благодарен за любую помощь, спасибо заранее.
В какую сторону мне надо копать? Буду благодарен за любую помощь,
Примеры флуда: (сообщение меньше 10 символов никогда не считается флудом)
ахахахахах
лоооооооллл
собака восемь игорь григорий
1i8s0b2ma6x
888usada4tw2
Примеры не флуда:
всем привет
ку бро
xd lol
прив бро кд чд?
чтоб понять флуд или нет, нужно знать топик чата и проверять по нему причем не только последнее собщение а еще и историю переписки
Пять Борис котики восемьдесят семь
По идее большие модели, особенно топовые проприетарные типа Соннета должны решать это и без тюнинга, чисто промптом. То же самое и новые большие Лламы. По-моему это единственный адекватный путь. Остальные - просто время тратить.
Я бы на словарях решил, имхо, может работать и без ML
Обсуждают сегодня