Товарищи, а насколько разумно проводить кластеризацию 500 объектов по 100

Question

Big Data Science :: AI / Big Data / Machine Learning / MLOps

Oleg Antonovich

Товарищи, а насколько разумно проводить кластеризацию 500 объектов по 100

признакам?
Необходимо ли предварительно снизить размерность каким-нибудь PCA?

#database #programming #russian #software

0

06.06.2021

10 ответов

8 просмотров

Oleg Antonovich Автор вопроса

Sergei L
Предположим после PCA ушло 50% признаков, поменяет...

В целом, нет. Может, я неправильно сформулировал вопрос. Я хотел бы узнать: плохо ли ведут себя алгоритмы кластеризации при большой размерности, нужно ли с этим бороться (как, например, нужно избавляться от разной размерности в кластеризации или от мультиколлинеарности в линейной регрессии)

0

06.06.2021

Sergei L

Oleg Antonovich
В целом, нет. Может, я неправильно сформулировал в...

Общий концепт: все обусловлено данными. чего-то плохого в общем смысле нет. Если данные у вас в принципе не образуют кластера, то понятно дело без каких-то предоборботок их получить не удасться (если вообще можно и т.д)

0

06.06.2021

Oleg Antonovich Автор вопроса

Sergei L
Общий концепт: все обусловлено данными. чего-то пл...

Спасибо большое

0

06.06.2021

Sergei L

Oleg Antonovich
Спасибо большое

нз (не сказал, но вы должы понимать, что в каком-то смысле теряете информацию в замен на "упрощение". такова цена обработки; т.е. просто так фигачить, что попало - так себе тема без "подумать и проанализировать")

0

06.06.2021

Maxim Cheparin

Oleg Antonovich
Спасибо большое

вообще еще есть иерархическая (агломеративная) кластеризация -- если грубо, можно настраивать количество кластеров (типо, не доводить до 1, 2, 3, ... элементов в кластере, если считаешь, что это маленький кластер), не уверен ,что классно объяснил, но погугли)

0

06.06.2021

Max 🍿

А какой алгоритм кластеризации ты выбрал?

0

06.06.2021

Oleg Antonovich Автор вопроса

Max 🍿
А какой алгоритм кластеризации ты выбрал?

В процессе выбора, но не рассматриваю иерархические. Конкретно сейчас остановил взгляд на mean shift

0

06.06.2021

Anton