170 похожих чатов

Привет! Появились финальные результаты по Сайге на новых моделях. Сами новые модели: saiga2_7b_lora

на LLaMA-2 7B, и её ggml квантованные версии
saiga2_13b_lora на LLaMA-2 13B, и её ggml квантованные версии
gigasaiga_lora на ruGPT-3.5-13B

Side-by-side сравнения (победы левой - ничьи - победы правой):

- gigasaiga vs gpt3.5-turbo: 41-4-131
- saiga2_7b vs gpt3.5-turbo: 53-7-116
- saiga7b vs gpt3.5-turbo: 58-6-112
- saiga13b vs gpt3.5-turbo: 63-10-103
- saiga30b vs gpt3.5-turbo: 67-6-103
- saiga2_13b vs gpt3.5-turbo: 70-11-95

- saiga7b vs saiga2_7b: 78-8-90
- saiga13b vs saiga2_13b: 95-2-79
- saiga13b vs gigasaiga: 112-11-53

Сырую разметку можно найти здесь: rulm_human_preferences

А на картинке - результаты на RussianSuperGLUE.

В целом ruGPT-3.5-13B как будто бы хуже Лламы, как первой, так и второй, и на RSG, и в SbS. Для меня это довольно удивительный результат, учитывая количество русского в обучении Лламы.

А Ллама-2 не сильно лучше Лламы-1 в попарном сравнении, но явно закрывает какие-то ниши (математика и программирование?), в которых первая версия была совсем плоха. Плюс вторая версия гораздо лучше во всём, что связано с ответами на вопросы по тексту.

7 ответов

115 просмотров

Привет! Правильно понимаю, что в таблице под Saiga 13B LoRA понимается версия, обученная над LLaMA-2?

Ilya-Gusev Автор вопроса
Ilya Gusev
Нет, тогда бы она называлась Saiga2

Илья, вы человек сведущий)) я к инференсу Сайга-7 cpp добавил 5 ядер, и их стало 6 вместо одного, но скорость не выросла ни на каплю. GPT-4 говорит что так и должно быть, типа "трансформер генерит последовательно токен за токеном и это не распараллелишь" 🤷‍♀️ но я вдруг сейчас вспомнил, что у вас в требованиях к инференсу для модели 30B стоит "4 ядра CPU" - из чего можно сделать заключение, что это таки имеет значение. Как так? Что мы с ГПТ упустили? 😄

Ilya-Gusev Автор вопроса
🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Илья, вы человек сведущий)) я к инференсу Сайга-7 ...

то, что при генерации даже одного токена в трансформере вполне есть параллельные операции? головы атеншена хотя бы

вопросик по тому, как side-by-side проводится. я пытаюсь понять, насколько результаты теста зависят от того, как конкретно производился finetune и генерация. как вы подбираете параметры для файнтьюна и генерации? они у разных модели одинаковые используются, или пытаешься выбить на глаз из каждой модели самый адекватный ответ?

Ilya-Gusev Автор вопроса

Где возможно, параметры одинаковые. Если модели чужие - беру generation_config.json

Ilya Gusev
Где возможно, параметры одинаковые. Если модели чу...

а в целом когда файнтьюнишь модель, "наилучшие возможные" параметры для модели ведь меняются. кажется в этом плане, что и старые параметры из generation_config уже не актуальны, а использовать одинаковые параметры для разных моделей тоже неверно. или это скорее всего статистически незначимое различие?

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта