170 похожих чатов

Привет! Появились финальные результаты по Сайге на новых моделях. Сами новые модели: saiga2_7b_lora

на LLaMA-2 7B, и её ggml квантованные версии
saiga2_13b_lora на LLaMA-2 13B, и её ggml квантованные версии
gigasaiga_lora на ruGPT-3.5-13B

Side-by-side сравнения (победы левой - ничьи - победы правой):

- gigasaiga vs gpt3.5-turbo: 41-4-131
- saiga2_7b vs gpt3.5-turbo: 53-7-116
- saiga7b vs gpt3.5-turbo: 58-6-112
- saiga13b vs gpt3.5-turbo: 63-10-103
- saiga30b vs gpt3.5-turbo: 67-6-103
- saiga2_13b vs gpt3.5-turbo: 70-11-95

- saiga7b vs saiga2_7b: 78-8-90
- saiga13b vs saiga2_13b: 95-2-79
- saiga13b vs gigasaiga: 112-11-53

Сырую разметку можно найти здесь: rulm_human_preferences

А на картинке - результаты на RussianSuperGLUE.

В целом ruGPT-3.5-13B как будто бы хуже Лламы, как первой, так и второй, и на RSG, и в SbS. Для меня это довольно удивительный результат, учитывая количество русского в обучении Лламы.

А Ллама-2 не сильно лучше Лламы-1 в попарном сравнении, но явно закрывает какие-то ниши (математика и программирование?), в которых первая версия была совсем плоха. Плюс вторая версия гораздо лучше во всём, что связано с ответами на вопросы по тексту.

7 ответов

110 просмотров

Привет! Правильно понимаю, что в таблице под Saiga 13B LoRA понимается версия, обученная над LLaMA-2?

Ilya-Gusev Автор вопроса
Ilya Gusev
Нет, тогда бы она называлась Saiga2

Илья, вы человек сведущий)) я к инференсу Сайга-7 cpp добавил 5 ядер, и их стало 6 вместо одного, но скорость не выросла ни на каплю. GPT-4 говорит что так и должно быть, типа "трансформер генерит последовательно токен за токеном и это не распараллелишь" 🤷‍♀️ но я вдруг сейчас вспомнил, что у вас в требованиях к инференсу для модели 30B стоит "4 ядра CPU" - из чего можно сделать заключение, что это таки имеет значение. Как так? Что мы с ГПТ упустили? 😄

Ilya-Gusev Автор вопроса
🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Илья, вы человек сведущий)) я к инференсу Сайга-7 ...

то, что при генерации даже одного токена в трансформере вполне есть параллельные операции? головы атеншена хотя бы

вопросик по тому, как side-by-side проводится. я пытаюсь понять, насколько результаты теста зависят от того, как конкретно производился finetune и генерация. как вы подбираете параметры для файнтьюна и генерации? они у разных модели одинаковые используются, или пытаешься выбить на глаз из каждой модели самый адекватный ответ?

Ilya-Gusev Автор вопроса

Где возможно, параметры одинаковые. Если модели чужие - беру generation_config.json

Ilya Gusev
Где возможно, параметры одинаковые. Если модели чу...

а в целом когда файнтьюнишь модель, "наилучшие возможные" параметры для модели ведь меняются. кажется в этом плане, что и старые параметры из generation_config уже не актуальны, а использовать одинаковые параметры для разных моделей тоже неверно. или это скорее всего статистически незначимое различие?

Похожие вопросы

Обсуждают сегодня

а через ESC-код ?
Alexey Kulakov
29
30500 за редактор? )
Владимир
47
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
13
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
program test; {$mode delphi} procedure proc(v: int32); overload; begin end; procedure proc(v: int64); overload; begin end; var x: uint64; begin proc(x); end. Уж не знаю...
notme
6
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
6
вы делали что-то подобное и как? может есть либы готовые? увидел картинку нокода, где всё линиями соединено и стало интересно попробовать то же в ddl на lua сделать. решил с ч...
Victor
8
Ребят в СИ можно реализовать ООП?
Николай
33
Подскажите пожалуйста, как в CustomDrawCell(Sender: TcxCustomGridTableView; ACanvas: TcxCanvas; AViewInfo: TcxGridTableDataCellViewInfo; var ADone: Boolean); получить наз...
A Z
7
Карта сайта