меня "правильный" CV, это когда всякие там средние и прочие штуки - считаются строго на train-фолдах, а потом применяются на тест-фолде, через пайплайн, и вот пробую target-mean-encoding (и да, он smoothed) - реализовал, получил скор на CV и "чистом" тесте (модель этих данных не видела)
2) потом сделал такую штуку - когда весь трейн (внутри текущего сплита CV) бьется еще раз на фолды - и на них делается "правильный" target-mean-encoding (среднее таргета считаем по трейну, применяем на тестовом фолде), во внешнем CV для кодирования факторов в тестовом фолде применяем среднее по всему трейну. И вот во втором случае я получил хуже скор на CV и тесте, соразмерно. Вопрос - если у нас честный CV - а надо ли еще и трейн бить на фолды и там делать "правильный" target-mean-encoding?
самому думается, что если CV честный (все считаем без учета тестовой части) - то указанное выше делать не нужно
что думаете?
вопрос актуален, все равно CV-скор ниже, если делаем фолды внутри фолдов для target mean encoding внутри train части внутри CV-итерации
Не понял, в чем проблема
надо ли делать внутри CV-итерации для трейн части - еще раз разбивку на фолды, что бы применить target-mean-encoding проблема в том что если так делаю - скор хуже получается, как на CV так и на тесте (который модель не видела) CV - честный, через пайплайны
Обсуждают сегодня