Всем доброго дня, вопрос для практикующих ML: 1) вот есть у

Question

Всем доброго дня, вопрос для практикующих ML: 1) вот есть у

меня "правильный" CV, это когда всякие там средние и прочие штуки - считаются строго на train-фолдах, а потом применяются на тест-фолде, через пайплайн, и вот пробую target-mean-encoding (и да, он smoothed) - реализовал, получил скор на CV и "чистом" тесте (модель этих данных не видела)

2) потом сделал такую штуку - когда весь трейн (внутри текущего сплита CV) бьется еще раз на фолды - и на них делается "правильный" target-mean-encoding (среднее таргета считаем по трейну, применяем на тестовом фолде), во внешнем CV для кодирования факторов в тестовом фолде применяем среднее по всему трейну. И вот во втором случае я получил хуже скор на CV и тесте, соразмерно. Вопрос - если у нас честный CV - а надо ли еще и трейн бить на фолды и там делать "правильный" target-mean-encoding?

самому думается, что если CV честный (все считаем без учета тестовой части) - то указанное выше делать не нужно

что думаете?

#programming #r #russian

0

11.06.2021

3 ответов

15 просмотров

Jury Автор вопроса

вопрос актуален, все равно CV-скор ниже, если делаем фолды внутри фолдов для target mean encoding внутри train части внутри CV-итерации

0

11.06.2021

Jury Автор вопроса

Andrey
Не понял, в чем проблема

надо ли делать внутри CV-итерации для трейн части - еще раз разбивку на фолды, что бы применить target-mean-encoding проблема в том что если так делаю - скор хуже получается, как на CV так и на тесте (который модель не видела) CV - честный, через пайплайны

0

11.06.2021

Andrey · Accepted Answer

Andrey

Jury
вопрос актуален, все равно CV-скор ниже, если дела...

Не понял, в чем проблема

0

11.06.2021

169 похожих чатов

Всем доброго дня, вопрос для практикующих ML: 1) вот есть у

3 ответов

Похожие вопросы