какая методология у этих расчетов, из чего исходить?
как минимум можно на elbow method посмотреть а вообще погуглить что-то типа kmeans optimal number of clusters
Silhouette score, например
Используем метод локтя, гэп-статистику и силуэтный коэффициент. В методе локтя мы рисуем график уменьшения внутрикластерной неоднородности по мере увеличения количества кластеров и в итоге выбираем такое количество кластеров, после которого не наблюдается значительного изменения (уменьшения) внутрикластерной неоднородности. Локоть – это точка, где внутрикластерная неоднородность выравнивается после крутого спуска, отсюда и название метода. Что касается гэп-статистики, мы сравниваем общую внутрикластерную дисперсию для различных значений k c ее ожидаемым значением согласно равномерному распределению данных. Оптимальным количеством кластеров будет значение, максимизирующее гэп-статистику. Потом нужна верификация. Идея в следующем – сделали кластеризацию на 5 кластеров и посчитали скор. Как понять хороший это скор в целом или нет? Берете и случайным образом назначаете каждой записи ClusterID от 0 до 4 (тоже 5). Считаете скор. И теперь вы можете сравнить, насколько ваш скор лучше случайного. Сравнение с бейслайном – наше все. Если известны метки, используем вместо правильности скорректированный индекс Рэнда. Правильность требует точного соответствия меток кластеров, присвоенных точкам, фактическим меткам классов (ground truth), но проблема в том, что метки могут быть просто переставлены. Если же очень хочется правильность, делаем ее перестановочный вариант. Тетрадку, как делать, кинул в личку. Потом нужно сравнение средних значений признаков в отдельных кластерах со средними значениями в целом по всей совокупности объектов. Чем больше отличие групповых средних от общего среднего значения, тем качественнее кластеризация. Для проверки существенности различий в средних используют t-критерий Стьюдента. Также проверяем воспроизводимость кластеров. Выполняем кластеризацию на всем наборе, получаем результаты кластеризации на всем наборе. Случайно извлекаем подмножество наблюдений, выполняем кластеризацию на подмножестве, получаем результаты кластеризации на подмножестве. Сравниваем результаты. Как вариант, разбиваем набор на обучающую и тестовую выборки, выполняем кластеризации и сравниваем результаты. Тут есть тонкий момент. Размер подмножества должен составлять 40-50%. При слишком большом размере подмножества (80%) почти всегда воспроизводятся те же самые результаты кластеризации (оптимистичная оценка), а при слишком маленьком размере подмножества (5-10%) очень редко воспроизводятся те же самые результаты кластеризации (оптимистичная оценка), потому что нарушается структура кластеров. Разбиение на обучающую и тестовую выборки обычно составляет 50%/50% или 60%/40%.
Обсуждают сегодня