как мне проверить данные на совершенно новых записях? Пример:
1000 футбольных матчей, точность 55%. Но скоро будут сыграно еще 5. Проблема в том, что мы знаем только кто, с кем и когда играет, а по всем остальным столбцам (удары, забито, угловые) - пустота. Как быть? подставить mean в них?
Это data leak, ты не можешь предсказывать результат матча, пользуясь этими данными
а какое решение считается корректным?
надо как-то умудриться использовать предыдущие матчи. Может по всем командам -mean и подставить, может только по выбранным командам за последние игры. Но какой-то предварительный итог, что может команда А и что может команда Б должны быть в DF
Да, можешь среднее использовать. Это законно
Обсуждают сегодня