каждой темы вытащить слова наиболее характеризующие каждую тему. Уверен что такую задачу уже решали миллион раз, мож есть какие готовые пайплайны? А то сходу не могу придумать что-то умнее чем применить лемметизацию\стеммер, выкинуть стопслова и посчитать топ слов по количеству по темам..
А почему бы и нет?
Простой вариант: from rutermextract import TermExtractor term_extractor = TermExtractor() list_theme = [] for term in term_extractor(text): list_theme.append(term.normalized) theme_text = ' | '.join(list_theme[:3])
Можно взять feature importance у простых или деревянных моделей, из классификатора
а в рамках безумной идеи глянуть например на фиче импотенс рандом фореста?
Обсуждают сегодня