сходу не могу провести.
когда в задаче временных рядов можно заменить валидацию с time series на kfold?
чую, что иногда можно. понятно, что отложенный тест всегда дальше трэйн. тем не менее, если считать все сэмплы равнозначными и несвязанными, почему бы их не перемешивать? протечки нет.
вопрос, собственно, когда их можно считать не связанными
Когда у тебя нет временного ряда
тут либо что-то простое (что скажет "нет"), либо вопрос глубокий и надо копать. склоняюсь ко второму. в принципе, ну и что что таймсериес, если не искать в нем тренды/сезонности. тогда это просто регрессия Rn -> Rm. да, да?)
валидация же должна быть приближена к запуску в проде в проде вы по одному периоду считаете, а на другом (который в будущем) предсказываем вы же не сможете в проде считать метрику по части пользователей и предсказывать ее для остальных. Вернее сделать то вы сможете, но толку от этого может быть мало. Потому что в этот момент ее уже посчиатать можно по всем, зачем предсказывать то? 🙈
я про отбор моделей на трэйне, про шаффл данных. откладывать отложенный тест разумно в конце. но при отборе гиперпараметров, можно (ли?) перемешать сэмплы? а почему бы и нет, если они не пересекаются? почему будущее важнее прошлого? точно ли sample weights по возрастанию это корректно?... надо смотреть в природу данных...
Обсуждают сегодня