Коллеги, всем привет ) подошел к задаче кластеризации коротких текстов на

Question

Коллеги, всем привет ) подошел к задаче кластеризации коротких текстов на

русском языке
идею в целом вроде уловил и первые кластеризации KMeans сделал )

что можете порекомендовать для улучшения:
1. как именно получать эмбеддинги предложений?
2. какой способ лучше - KMeans, DBScan, Anglomerate или другой?
3. как автоматически оценить результат кластеризации ?
то есть что на 5 кластеров лучше, чем 6 или что DBScan разделил лучше, чем KMeans
4. как автоматически отлавливать "выбросы", то есть фразы, не дтягивающие в попадание в кластер или вообще попавшие в выборку ошибочно?
?

#nlp #programming #russian

0

18.08.2023

5 ответов

23 просмотра

Yaroslav Moiseev

https://youtu.be/gYstMAH0bwc

0

19.08.2023

Yaroslav Moiseev

MPnet из sentence transformers потом umap, hdbscan оптимизировать гиперпараметры оптуной на модифицированный силуэт, чтобы выбросы учитывать. Мне так лучше зашло. Однако, если нужны, чтобы побольше кластеры или поменьше были всегда границы при подборе гиперпараметров ставить соответствующие. В документации BERT topic про это есть.

0

19.08.2023

Anatoly Belov Автор вопроса

Yaroslav Moiseev
https://youtu.be/gYstMAH0bwc

увидел, спасибо )

0

21.08.2023

Anatoly Belov Автор вопроса

Yaroslav Moiseev
MPnet из sentence transformers потом umap, hdbsc...

увидел, спасибо )

0

21.08.2023