момент, где они размышляют о том почему скоры разнятся от оригинальной Ламы. Они говорят, что это может быть следствием того, что для обучения использовалась точность fp16, что ограничивало их в батч сайзе. Как это может быть связано? Из-за fp16 как то теряется стабильность обучения на больших батчсайзах или просто перестает давать выигрыш?
лучшие
Обсуждают сегодня