'элегантный'),
('элегантный', 'возраст'). Нужно ли их приводить к одному виду, типа (‘элегантный’, человек'),
('элегантный', 'возраст'), или их нужно обрабатывать в том порядке, в котором они созданы?
Есть 10000 описаний событий, хочу посмотреть на статистику самых часто встречающихся сочетаний слов из описаний.
Еще вариант лемматизация + просто топ встречаемости одиночных слов + фаст текст и топ K слов по метрике близости к первым N словам из топа популярных слов. Таким образом это не обязательно будут биаграммы, а именно наиболее популярные в какомто окне заданном вами при обучении фасттекста..
Обсуждают сегодня