выявить группы документов(они не известны заранее), какой лучший способ это сделать ?
                  
                  
                
Сначала определить на глаз сколько групп с помощью T-SNE или PCA, и затем K-means
топик моделинг в помощь
https://github.com/bigartm/bigartm
Обсуждают сегодня