Всем привет! Я дообучаю разные генеративные модельки (GPT и другие, оптимизатор AdamW), и время от времени они получаются плохими, хотя данные и лосс вроде бы в порядке. Это в...