никто не пробовал тюнить? https://huggingface.co/amazon/MistralLite
Двойное квантованние включено ?
скиньте пулл реквест Илье, пусть добавит
С двойным квантованнием памяти жрется наверное раза в полтора - два больше
с ним больше не будет
флеш атеншен это не квантование
Ребят как модель на мистрель обучить другому языку ? В моем случае азербайджанскому ?
Тестил альпаку от стенфорда, она довольно хорошо знает язык, думаю хорошо было бы если обучить пустой мистраль, тоесть сначала надо собрать много текста а дальше ? как текст конвертировать в понимание его ?
если бы вам гепотетически нужно было бы сделать свою модель на основе мистраля которая понимает азербайджанский, на этом можно сделать ее ?
Нашел еще такую - https://huggingface.co/NousResearch/Yarn-Mistral-7b-128k
сколько пробовал всякие эти длинноконтекстные для суммаризации - жрут памяти столько как пожар, а на выходе часто битая хрень, ломаются на полпути. пока не понял сути длинного контекста, если нестабильно работают. кстати вообще часто замечал, чем больше контекст подаешь - модель с ума сходит. забывает что от нее хотели.
Обсуждают сегодня