в ресёрче
Предположим, я делаю что-то с предобученной моделью (bert) перед дообучением для конкретной задачи. Seed, как я понимаю, влияет на инициализацию верхнего слоя и порядок данных при дообучении.
1) Насколько важно/правильно подбирать хороший seed?
2) Должен ли быть при каждом эксперименте свой seed?
https://arxiv.org/abs/2109.08203
а статья, где все metric loss показывают практически одни и теже метрики при одинаковых параметрах запуска эксперимента?)
ага, не смог сразу нагуглить )
Обсуждают сегодня