169 похожих чатов

Всем привет! Буду благодарен за любую помощь. Задача такая - есть

текст, обычно это короткое предложение, до 5 слов, но может быть и длиннее - до 256 символов) Надо как-то понять это сообщение флуд или нет. Ниже указал примеры сообщений которые считаются и не считаются флудом. Я не сильно знаком с NLP и Machine Learning в целом, но немного уже попытался сделать сам и у меня возникли проблемы с сообщениями по типу "собака восемь игорь григорий", то есть по факту это как бы не флуд, но смысловой нагрузки никакой сообщение не несет, такие сообщения НЕ ОБЯЗАТЕЛЬНО детектить как флуд, но все же было бы неплохо если бы они тоже распозновались. Основное требовние это предложения по типу 1q2w3e4r5t где все символы уникальны но сообщение явный флуд. Также проблема с языками (про английский пока что можно не беспокоится, но желательно на него тоже такое реализовать). Также проблема со сленгом, его в русском языке немало и надо как-то не детектить его как флуд.

Насколько я понимаю мне надо сначала определиться с моделью, какая модель лучше всего для этого подойдет? Где найти датасет для обучения этой модели? Буду благодарен за любую помощь, спасибо заранее.
В какую сторону мне надо копать? Буду благодарен за любую помощь,

Примеры флуда: (сообщение меньше 10 символов никогда не считается флудом)
ахахахахах
лоооооооллл
собака восемь игорь григорий
1i8s0b2ma6x
888usada4tw2

Примеры не флуда:
всем привет
ку бро
xd lol
прив бро кд чд?

4 ответов

23 просмотра

чтоб понять флуд или нет, нужно знать топик чата и проверять по нему причем не только последнее собщение а еще и историю переписки

По идее большие модели, особенно топовые проприетарные типа Соннета должны решать это и без тюнинга, чисто промптом. То же самое и новые большие Лламы. По-моему это единственный адекватный путь. Остальные - просто время тратить.

Я бы на словарях решил, имхо, может работать и без ML

Похожие вопросы

Обсуждают сегодня

Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
10
я так понимаю, я так подозреваю, что создание такого плагина для человека, кто умеет писать плагины для делфи потребует минут 5-10 времени. но это мое подозрение. хотелось бы ...
Kraszx
7
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Коллеги, добрый вечер. Создаю коллекцию от TFPGMap, ключ - перечисление, значение - целое. Нужно отсортировать коллекцию по значению. Как это можно сделать?
Kirill Filippenok
11
Привет, такой вопросик появился кажется ли вам что Rust слишком сложный/строгий для высокоуровневого программирования и слишком "безопасный"/строгий для низкоуровневого?
Крокант
10
Скажи а ты когда этот канал создавал ты уже дельфи не любил, или это со временем пришло?
Роман Лях (rgreat)
18
Всем привет! Использую кастомное модальное диалоговое окошко, все по классике - mrOK, mrCancel как ModalResult. Однако есть нюанс - в главной форме есть универсальный обработч...
Олег Гранишевский
20
Карта сайта