методе поиска оптимальных параметров random state (будь то grid search, random или bayesian) , мы для всех комбинаций параметров используем одинаковое разделение данных (если говорим о train_test_split, то два одинаковых сета, если про cv сплит, то одинаковые n сетов). Теоретически это означает, что best hyperparameters будет зависеть от random state, потому что они могут быть оптимизированы именно для заданного разделения.
С другой стороны, мы можем не указывать random_state и тогда все разделения будут рандомные, но мы потеряем в этом случае reproducability.
Указывание random_state не будет большой проблемой для больших датасетов, но для маленького количества данных и, тем более, если вариативность большая, то random_state может представлять опасность, верно?
Можно минимизировать эффект вариативности с помощью repeated k-fold cv, а еще можно каждое разделение делать по разному, но при этом сохранять reproducability. Кто-нибудь знает такие тулзы?
Это в optuna?
Обсуждают сегодня