русском языке
идею в целом вроде уловил и первые кластеризации KMeans сделал )
что можете порекомендовать для улучшения:
1. как именно получать эмбеддинги предложений?
2. какой способ лучше - KMeans, DBScan, Anglomerate или другой?
3. как автоматически оценить результат кластеризации ?
то есть что на 5 кластеров лучше, чем 6 или что DBScan разделил лучше, чем KMeans
4. как автоматически отлавливать "выбросы", то есть фразы, не дтягивающие в попадание в кластер или вообще попавшие в выборку ошибочно?
?
У вас известно количество кластеров?
https://youtu.be/gYstMAH0bwc
MPnet из sentence transformers потом umap, hdbscan оптимизировать гиперпараметры оптуной на модифицированный силуэт, чтобы выбросы учитывать. Мне так лучше зашло. Однако, если нужны, чтобы побольше кластеры или поменьше были всегда границы при подборе гиперпараметров ставить соответствующие. В документации BERT topic про это есть.
увидел, спасибо )
увидел, спасибо )
Обсуждают сегодня