адаптировать для неё примеры из документации к API оригинальной GPT-3 от OpenAI - нифига не выходит. Даже знаменитая суммаризация текста путём добавления "tl;dr:" в конец затравки не помогает. Такое ощущение что эта сетка может только шизофазию продуцировать. Неужели для таких "трюков" модели меньше 175 милиардов параметров бесполезны?
Тоже заметил такую проблему. Дело не только в объеме модели, но и в параметрах обучения - неизвестно как их подбирали. Внутри конфигов, модель, кстати, называется rugpt3{SIZE}_based_on_gpt2. Хотелось бы узнать что это значит. Мне кажется, тут большую роль играет относительная сложность английского и русского языков помноженная на более низкое качество обучающей выборки.
Обсуждают сегодня