Нужно про сам бенчмарк прочитать что он из себя представляет. Хороший вопрос на самом деле
Вот humaneval https://paperswithcode.com/dataset/humaneval
Вроде я этот же код брал, когда nanogpt тестировал. Даже интересно получалось) Только вот количество кода для задач не вида "сложи два числа", "сделай пост апи на джанго" должно быть сильно больше
Обсуждают сегодня