ли автор что-то попутал, то ли я чего-то не понял, но вроде он использует в качестве проверки своей модели gender_submission.csv, который предназначен, как образец, того, что должно получиться, а не истиные значения.
Я просто хочу понять в чем его модель или данные для нее отличаются от моей, но выходит, что он просто использует не те данные для проверки
Единственный способ получить acc=1 на Титанике -- считерить, используя данные из внешних источников. Списки выживших есть в сети.
Больше 0.8 без leakage или рандомного везения - практически нереально получить, т.к. тест на деле не сильно даже похож на данные, которые дают для тренировки. С leakage можно вплоть до 0.85 дойти, выше не видел (без читерства)
Ну вот в книге у автора получилось вот так
Вероятно автор использовал все данные для preprocessing, а только потом делил на трейн/тест, т.е. допускал leakage. Но это чисто догадка. Так очень часто делают на каггле, т.к. зачастую получаются лучше результаты. Но в продакшн так не прокатит
Ну, да, это баловство какое-то
Обсуждают сегодня