на LLaMA-2 7B, и её ggml квантованные версии
saiga2_13b_lora на LLaMA-2 13B, и её ggml квантованные версии
gigasaiga_lora на ruGPT-3.5-13B
Side-by-side сравнения (победы левой - ничьи - победы правой):
- gigasaiga vs gpt3.5-turbo: 41-4-131
- saiga2_7b vs gpt3.5-turbo: 53-7-116
- saiga7b vs gpt3.5-turbo: 58-6-112
- saiga13b vs gpt3.5-turbo: 63-10-103
- saiga30b vs gpt3.5-turbo: 67-6-103
- saiga2_13b vs gpt3.5-turbo: 70-11-95
- saiga7b vs saiga2_7b: 78-8-90
- saiga13b vs saiga2_13b: 95-2-79
- saiga13b vs gigasaiga: 112-11-53
Сырую разметку можно найти здесь: rulm_human_preferences
А на картинке - результаты на RussianSuperGLUE.
В целом ruGPT-3.5-13B как будто бы хуже Лламы, как первой, так и второй, и на RSG, и в SbS. Для меня это довольно удивительный результат, учитывая количество русского в обучении Лламы.
А Ллама-2 не сильно лучше Лламы-1 в попарном сравнении, но явно закрывает какие-то ниши (математика и программирование?), в которых первая версия была совсем плоха. Плюс вторая версия гораздо лучше во всём, что связано с ответами на вопросы по тексту.
Привет! Правильно понимаю, что в таблице под Saiga 13B LoRA понимается версия, обученная над LLaMA-2?
Нет, тогда бы она называлась Saiga2
Илья, вы человек сведущий)) я к инференсу Сайга-7 cpp добавил 5 ядер, и их стало 6 вместо одного, но скорость не выросла ни на каплю. GPT-4 говорит что так и должно быть, типа "трансформер генерит последовательно токен за токеном и это не распараллелишь" 🤷♀️ но я вдруг сейчас вспомнил, что у вас в требованиях к инференсу для модели 30B стоит "4 ядра CPU" - из чего можно сделать заключение, что это таки имеет значение. Как так? Что мы с ГПТ упустили? 😄
то, что при генерации даже одного токена в трансформере вполне есть параллельные операции? головы атеншена хотя бы
вопросик по тому, как side-by-side проводится. я пытаюсь понять, насколько результаты теста зависят от того, как конкретно производился finetune и генерация. как вы подбираете параметры для файнтьюна и генерации? они у разных модели одинаковые используются, или пытаешься выбить на глаз из каждой модели самый адекватный ответ?
Где возможно, параметры одинаковые. Если модели чужие - беру generation_config.json
а в целом когда файнтьюнишь модель, "наилучшие возможные" параметры для модели ведь меняются. кажется в этом плане, что и старые параметры из generation_config уже не актуальны, а использовать одинаковые параметры для разных моделей тоже неверно. или это скорее всего статистически незначимое различие?
Обсуждают сегодня