количество кластеров для работы с текстом? у меня есть задача — сгруппировать/кластеризовать результаты поисковых запросов, и хочется понять, как бы лучше это делать. я понимаю, что это unsupervised learning, токенизировала все, нормализовала, исправила опечатки, сделала tf-idf словарь, и пытаюсь дальше использовать kmeans, как наиболее распространенный метод (раньше с текстом не работала никогда). я хочу использовать elbow method для определения оптимального количества кластеров, но только что мне использовать для этого? у меня есть tf-idf matrix, я могу ее использовать в качестве вектора? или надо брать оси из нее? или, может, посоветуете другой способ решения задачи? спасибо заранее
LSA называется ваша задача
Обсуждают сегодня