признакам?
Необходимо ли предварительно снизить размерность каким-нибудь PCA?
Предположим после PCA ушло 50% признаков, поменяется ли что-либо в вашем вопросе тогда?
В целом, нет. Может, я неправильно сформулировал вопрос. Я хотел бы узнать: плохо ли ведут себя алгоритмы кластеризации при большой размерности, нужно ли с этим бороться (как, например, нужно избавляться от разной размерности в кластеризации или от мультиколлинеарности в линейной регрессии)
Общий концепт: все обусловлено данными. чего-то плохого в общем смысле нет. Если данные у вас в принципе не образуют кластера, то понятно дело без каких-то предоборботок их получить не удасться (если вообще можно и т.д)
Спасибо большое
нз (не сказал, но вы должы понимать, что в каком-то смысле теряете информацию в замен на "упрощение". такова цена обработки; т.е. просто так фигачить, что попало - так себе тема без "подумать и проанализировать")
вообще еще есть иерархическая (агломеративная) кластеризация -- если грубо, можно настраивать количество кластеров (типо, не доводить до 1, 2, 3, ... элементов в кластере, если считаешь, что это маленький кластер), не уверен ,что классно объяснил, но погугли)
А какой алгоритм кластеризации ты выбрал?
В процессе выбора, но не рассматриваю иерархические. Конкретно сейчас остановил взгляд на mean shift
Смотря на чем основан алгоритм кластеризации? Косинусная мера близости?
Почитайте про "проклятие размерности". Грубо говоря, чем больше измерений у пространства, тем сложнее разделить в нём точки на кластеры.
Обсуждают сегодня