170 похожих чатов

Коллеги, всем привет ) подошел к задаче кластеризации коротких текстов на

русском языке
идею в целом вроде уловил и первые кластеризации KMeans сделал )

что можете порекомендовать для улучшения:
1. как именно получать эмбеддинги предложений?
2. какой способ лучше - KMeans, DBScan, Anglomerate или другой?
3. как автоматически оценить результат кластеризации ?
то есть что на 5 кластеров лучше, чем 6 или что DBScan разделил лучше, чем KMeans
4. как автоматически отлавливать "выбросы", то есть фразы, не дтягивающие в попадание в кластер или вообще попавшие в выборку ошибочно?
?

5 ответов

8 просмотров

У вас известно количество кластеров?

https://youtu.be/gYstMAH0bwc

MPnet из sentence transformers потом umap, hdbscan оптимизировать гиперпараметры оптуной на модифицированный силуэт, чтобы выбросы учитывать. Мне так лучше зашло. Однако, если нужны, чтобы побольше кластеры или поменьше были всегда границы при подборе гиперпараметров ставить соответствующие. В документации BERT topic про это есть.

Anatoly-Belov Автор вопроса
Anatoly-Belov Автор вопроса

Похожие вопросы

Обсуждают сегодня

Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
55
Привет, нужен совет старших товарищей. Есть глобальная переменная var DefaultDataFolder:string; инициализируем DefaultDataFolder:='a:\_OUT\'; есть примитивная процедур...
Max Otto
11
Вопрос. Теоретический. Есть список команд. Команды отправляю в обработку некой функции, по очереди. Разные команды могут давать разные результаты после обработки. В зависимос...
Serjone
7
Всем вечера. Подскажите как лучше сделать. делаю на Д10 Например будет база данных на SQLite. в ней будет много таблиц. более 50шт Типа справочник. Содержать ID Name Id p...
Андрей Т 🐎
10
Я короче решил скомпилировать Nim в js, я думал он сработает как обычный транслятор. По итогу он мне создал файл с расширением js, и туда поместил кучу кода Вопрос, что это з...
𝕾𝖍𝖆𝖉𝖊 <suspense>
9
это группа токсиков или тех кто помогает?
Ибрагим
9
мы пытаемся подменить функцию, которая имеет меньше инструкций относительно функции, которой подменяем. https://www.reddit.com/r/jailbreakdevelopers/comments/w06ujy/mshookfun...
Óðinn
6
У кого-нибудь есть под рукой функция кодирования юникода, которая из фразы На русском сделает \u041d\u0430\u0020\u0440\u0443\u0441\u0441\u043a\u043e\u043c ?
Daniil Smolyakov
7
подскажите пожалуйста, как мне освободить результат записанный в переменную result? в чем проблема подскажите если МОЖЕТЕ?
Михаил Helper
28
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
Карта сайта