170 похожих чатов

Коллеги, всем привет ) подошел к задаче кластеризации коротких текстов на

русском языке
идею в целом вроде уловил и первые кластеризации KMeans сделал )

что можете порекомендовать для улучшения:
1. как именно получать эмбеддинги предложений?
2. какой способ лучше - KMeans, DBScan, Anglomerate или другой?
3. как автоматически оценить результат кластеризации ?
то есть что на 5 кластеров лучше, чем 6 или что DBScan разделил лучше, чем KMeans
4. как автоматически отлавливать "выбросы", то есть фразы, не дтягивающие в попадание в кластер или вообще попавшие в выборку ошибочно?
?

5 ответов

40 просмотров

У вас известно количество кластеров?

https://youtu.be/gYstMAH0bwc

MPnet из sentence transformers потом umap, hdbscan оптимизировать гиперпараметры оптуной на модифицированный силуэт, чтобы выбросы учитывать. Мне так лучше зашло. Однако, если нужны, чтобы побольше кластеры или поменьше были всегда границы при подборе гиперпараметров ставить соответствующие. В документации BERT topic про это есть.

Anatoly-Belov Автор вопроса
Anatoly-Belov Автор вопроса

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта