моделей классификации \ кластеризации ?
есть ли какой то аналог для регрессионных моделей?
для регрессии кроссвалидация делается точно так же, за отсутствием стратификации только
тогда вопрос в догонку, как тот же sklearn cross validation понимает как считать accuracy для регрессии ? когда валидация для класссифкации идет - понятно, если лейблы одинаковые тогда угадал - иначе нет. я так понимаю для регрессии scoring нужно свой описать?
нет. для регрессоров в sklearn по умолчанию .score это r2_score
а да, нашел список уже реализованных скорингов. если я правильно понял, я могу и несколько разных скоров подкинуть, в том числе свой собственный?
в мануале написано что можно описать что то типа scoring=(‘r2’, ‘something_else’, or_callable()) Андрей, большое спасибо! https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html
Вообще, для регрессии тоже неплохо бы, чтобы сэмплы имели похожую форму распределения. Этого можно достичь бинаризацией целевой количественной переменной (как гистограммы) и... стратификацией.
Соглашусь.
Те целевое значение регрессии разбить на группы, а потом сделать выборку по стратам?
Всё верно. То есть, мы разбиваем переменную на N групп, чтобы по ним значения были распределены +- равномерно, после чего стратифицируем как если бы переменная была категориальной, после чего возвращаем переменную в исходное состояние.
Обсуждают сегодня