зачем вы это делаете?
Я не троллю, мне искренне любопытно, какая в этом практическая польза.
Во всех задачах категоризации текстов, с которыми я сам непосредственно сталкивался, в итоге постановка скатывалась к одной из двух крайностей:
1) Либо становилось понятно, что на самом деле мы хотим измерять попарную похожесть текстов (для поиска, рекомендаций, или чего-то ещё), либо нам нужно извлекать из текстов фичи для решения ещё какой-то конечной задачи, и разбиение на дискретные категории оказывалось не очень нужным костылём для решения этой конечной задачи;
2) Либо наоборот, владельцы задачи определялись с конкретным списком тех категорий, которые они хотели бы распознавать, и задача превращалась в классификацию с учителем.
Поэтому мне интересно, какие прикладные юз-кейсы у тематического моделирования существуют, и почему им так многие интересуются)
Моя задача - exploratory analysis набора контента. Так как текстов много, они не знакомые, появляются не одновременно, прочитать их все и сравнить - долго и муторно и все не запомнишь и что-нибудь пропустишь - хочется иметь “карту”, а что вообще в них бывает. То есть моя финальная задача качественная - нарисовать картинку/карту для пользователя, а там он уже будет решать, что с этим делать.
Обсуждают сегодня