айтемов (навзание + описание). Это всё спаршенные из интернета видео, книги, статьи и тд. Я хотел бы сгруппировать их по схожести тем, то есть сделать кластеризацию.
Посоветуйте, пожалуйста, какой в 2023 году люди используют для этого алгоритм?) Буду делать всё в Питоне. Какая желательна предварительная обработка текста, как лучше представить айтем (TF-IDF, word2vec, etc), какой алгоритм кластеризации взять?
Заранее благодарен за помощь!
никакой предобработки + multilingual-e5-base/multilingual-e5-large + агломеративная кластеризация/hdbscan/birch
Обсуждают сегодня