170 похожих чатов

Я не специалист, но, кажется, дообучение таких больших моделей требует

сумасшедшего объема видеопамяти
Для обучения берта используют до 20 карточек типа gp100, кажется
Gpt3 это вообще подъемно?)

3 ответов

11 просмотров

Если размер контекста уменьшать, то даже на 8 Gb что-то можно. С полным вроде бы 16 минимум, в 11-12 не помещается. 100 карт нужно, чтобы учить с нуля, не для дообучения.

Если речь про сберовские rugpt3*, то там вообще говоря есть 3 варианта, которые вполне можно *файнтюнить* на 8-16 Гб карточке в разумные сроки (часы...пара дней): 1) https://huggingface.co/sberbank-ai/rugpt3small_based_on_gpt2 2) https://huggingface.co/sberbank-ai/rugpt3medium_based_on_gpt2 3) https://huggingface.co/sberbank-ai/rugpt3large_based_on_gpt2 Самая маленькая rugpt3small_based_on_gpt2 безусловно будет выдавать самые плохие результаты, но вот *насколько* они будут хуже, чем результаты для rugpt3large_based_on_gpt2, сильно зависит от конкретной задачи. Вполне может оказаться, что разница будет некритична для MVP или rnd прототипа. При этом *small* позволяет делать батчи в несколько раз жирнее при тех же условиях, то есть файнтюнить быстрее. К примеру, вот на этой задачке звезды сошлись (ну нет, просто позиционные эмбеддинги зарулили) так, что при 3fold-кроссвалидации метрики для small, medium и large моделей в оптимуме отличаются на ~1 сотую:

Ilya Koziev
screenshot Если речь про сберовские rugpt3*, то там вообще го...

Интересно, что далее при малом повышении lr, метрика резко падает

Похожие вопросы

Обсуждают сегодня

А чем вам питонисты не угодили?😂
.
79
Язык Си можно выучить за день? По книжке ANSI C на 230 страниц
Vincent Vegan
29
Всем привет, написал код ниже, но он выдает сегфолт, в чем причина? #include <stdio.h> #include <stdlib.h> #include <string.h> struct product { char *name; float price; };...
buzz базз
75
Dim Dim, [02.07.2024 11:07] DB 0x62 Dim Dim, [02.07.2024 11:07] DB 0x66 Dim Dim, [02.07.2024 11:07] кто пояснит что это?
Dim Dim
14
Ошибка: segmentation fault (core dumped) Код: pastebin.com/BEsNNSSV Сообщение от компилятора: отсутствует ОС: Arch Linux Ядро: x86_64 Linux 6.9.7-arch1-1 Процессор: Intel Cele...
sec
4
Ребят, а за скок можно впарить анон чат с апишкой и веб админкой ?
Eugene Неелов
15
Ещё такой вопрос. Мне необходимо хранить пароль пользователя локально. Для этого планирую использовать ini файл. Это для автозаполнения полей логин и пароль при авторизации. Е...
Евгений
19
Кстати, я тут еще с одной темой столкнулся, вот учу я C++, на таком то ресурсе, а остальные постоянно советуют практиковаться, что то писать, проекты, но как писать если вот т...
aaswq1
7
@ahndmn @ayaw0_0 здарова, на чем пишете?
Aiwan \ (•◡•) / _bot
7
Коллеги, как получить PId для собственного процесса из под линукса?
Роман Лях (rgreat)
6
Карта сайта