215 похожих чатов

Кто может подсказать, почему я беру тренировочный датасет с соревов

на кэггл и после Startified 7-fold кросс-валидации классификатора на нем получаю средний ROC-AUC = 0.89.

Однако когда делаю простой train_test_split - тренируюсь на train, оцениваю на test - получаю ROC-AUC = 0.81.

Когда в submission на кэггл отправляю предсказания на тестовом кэггловском датасете - выдает скор = 0.8.

Почему так далеко от кросс-валидации?

Я бы еще мог предположить что разные выборки в тесте и трейне, но почему тогда обычный train_test_split выдал результат - самый правдоподобный по сравнению к кэгглу?

5 ответов

9 просмотров

Вы используете стратификацию?

⬜️-troglodytes Автор вопроса
Viktor
Вы используете стратификацию?

я юзаю StratifiedKFold: X, y = train.drop(['booking_status'], axis=1), train['booking_status'] xgb_classifier = xgb.XGBClassifier(n_jobs=-1, eval_metric='auc', n_estimators=50) stratified_cv = StratifiedKFold(n_splits=10, shuffle=True, random_state=42) roc_auc_scores = cross_val_score(xgb_classifier, X, y, cv=stratified_cv, scoring='roc_auc') mean_roc_auc = roc_auc_scores.mean() print(f"Mean ROC AUC Score: {mean_roc_auc:.4f}")

сэмплов много?

⬜️-troglodytes Автор вопроса
⬜️ troglodytes
7 Folds

кстати, у вас в коде написано 10: stratified_cv = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта