Warmap идёт вначале, а потом уменьшение, вроде всё норм
Почему используете полную точность без оптимизации?
😃не тороплюсь просто
У себя подобной магии не наблюдаю, но у меня карта 1
Для Noam происходит деление на √d_model поэтому и не видите 1.2
Да, вот этот параметр mult, который считается от d_model
А какой параметр d_model стоит в конфиге?
Обсуждают сегодня