Такой вот вопрос, господа. Когда мы делаем hyperparameter tuning, указывая в

Question

Такой вот вопрос, господа. Когда мы делаем hyperparameter tuning, указывая в

методе поиска оптимальных параметров random state (будь то grid search, random или bayesian) , мы для всех комбинаций параметров используем одинаковое разделение данных (если говорим о train_test_split, то два одинаковых сета, если про cv сплит, то одинаковые n сетов). Теоретически это означает, что best hyperparameters будет зависеть от random state, потому что они могут быть оптимизированы именно для заданного разделения.
С другой стороны, мы можем не указывать random_state и тогда все разделения будут рандомные, но мы потеряем в этом случае reproducability.
Указывание random_state не будет большой проблемой для больших датасетов, но для маленького количества данных и, тем более, если вариативность большая, то random_state может представлять опасность, верно?

#database #programming #russian #software

0

17.03.2021

2 ответов

11 просмотров

Dan Berd Автор вопроса

Можно минимизировать эффект вариативности с помощью repeated k-fold cv, а еще можно каждое разделение делать по разному, но при этом сохранять reproducability. Кто-нибудь знает такие тулзы?

0

17.03.2021

Edward Azizov · Accepted Answer

Edward Azizov

Это в optuna?

0

17.03.2021

215 похожих чатов

Такой вот вопрос, господа. Когда мы делаем hyperparameter tuning, указывая в

2 ответов

Похожие вопросы