Specify'?
word2vec слишком большой. Нужно что-то маленькое. Типо кластеризации. Спасибо
У меня би/триграммы хорошо зашли для кластеризации мест работы, там было что-то похожее, вроде "ООО Ромашка", "Ромашка", "Ромашка (ООО)" и т.п.
шум типа 'Other' встречаются в других записях? если да, то tf/idf поможет отсеять шум от "нормального"
Обсуждают сегодня