несколько запусков модели на датасете около 100К примеров по 4 эпохи. на границе эпохи идет резкий скачок loss вниз.
Значит ли это что данные слишком разнотипные и модель просто переобучается практически сразу. Или может быть данных мало?
Запоминает
В этом нет абсолютно никакой аномалии. Чем чаще модель "видела" текст (точнее, делала на н
В этом нет абсолютно никакой аномалии. Чем чаще модель "видела" текст (точнее, делала на нём шаг обучения), тем меньше у не
Обсуждают сегодня