запустили обучение на 16-ти A100 1-го сентября. Выкладывают Checkpoint. Очень достойно. Попробовал квантовать в 4-bit. Очень быстрая и оперативки 600мб кушает. На английском недурно общается. На русском слабовато.
Использование PEFT почему-то приводит к неверному определению размерности k_proj тензора [10, 256, 32, 64]. 64 - это hidden layers, тогда как в TinyLlama их 22.
Прикольно, звучит примерно как запустили в космос, пока летит до марса )
Обсуждают сегодня