он решает проблему коллинеарности в лин.моделях. Ну, ок, пока не попробую, не ясно, как скоррелированные фичи будут оценены, но, полагаю, низко. Но мысль, вообще, в другом. Коллинеарность вредна только для оценок ст.ошибок коэффициентов, а не самих коэффициентов (afaik). Для того, чтобы просто сделать предсказание, это вообще не важно, тем паче, если регрессия решается градиентным спуском. В этом свете Шепли полезен в том, что делает модель менее переобученной?
Не уверен что понял мысль про то что Шепли делает модель менее переобученной. Это же просто способ оценки вклада каждой фичи в функцию ошибки. Про коллинеарные фичи, в наверно любых моделях с ними проблем нет, можно накрутить регуляризацию. Проблема с ними когда оцениваешь их важность, по стандартным изменениям энтропии или джини деревянными моделями, коллинеарные переменные делят важность, грубо говоря у вас есть важная переменная, вы добавляете линейные комбинации этой переменной, и ее важность сразу падает во столько же раз, хотя очевидно этого не должно быть в хорошем алгоритме оценки важности. Шепли от этого защищён.
Обсуждают сегодня