если на 40 процентах обучить, на оставшихся 60 аккураси будет 97 процентов. Проверяю в проде - вообще чушь предиктит. Пишу ещё данных, снова обучаю по ним, ситуация повторяется. Выглядит, будто в жизни есть ещё данные, по которым модель не обучалась, но как понять, что стоит ещё записать?
Train test есть?) Отмена, перечитал вопрос
может утечка данных? leaky predictors? утечка при нормализации?
https://www.atoti.io/what-is-data-leakage-and-how-to-mitigate-it/
Спасибо, почитал. "The model might be somehow memorizing the feature-target relations instead of learning and generalizing." очень похоже на мой случай. Но даже не знаю, что может быть. Датасет я делил по-разному, данные не нормализовал, потому что одной размерности и xgboost к этому не чувствителен. Пропущенные значения просто удаляются и их меньше сотой процента..
A обучающая выборка на продовые данные похожа?
по идее должна быть. я лично записываю показания от другой нейронки с фронталки айфона. датчик глубины, углы головы\глаз. и либо я что-то упускаю в записи, либо у меня где-то утечка, которую я не могу найти
Посмотри ещё features importance, если ли там аномально значимые фичи
А о чем говорит аномальная значимость фичи?
Через такую фичю может утечка данных идти
Обсуждают сегодня