GPT-3 ?
https://habr.com/ru/company/sberdevices/blog/589969/ вот можно вычитать что-то, если ruGPT3 годится
да ruGPT-3 подойдет основа одна GPT-2 но нету про датасеты
Вот там, например, про датасеты ============== Диалоговый датасет разбивается на последовательность наборов «контекст-истинная реплика-отвлекающая реплика (N штук)» с кумулятивно нарастающим контекстом в течение каждого диалога. В ходе экспериментов мы выяснили, что качество диалоговой модели напрямую зависит от качества этого диалогового датасета, на котором мы обучаем её ведению беседы с пользователем. Можно сказать, что очень быстро (что, вообще говоря, нетипично для больших трансформерных моделей) качество данных становится важнее количества.
Обсуждают сегодня