Я правильно понимаю что это размеченный датасет на котором каждый может запустить свою модель и посмотреть качество и сравнить себя с другими моделями? Например с текущим sota решением. Данные датасеты закрытые? Мне думается что нет, но как тогда исключать тех кто добавил этот датасет в обучение?
А зачем делать замеры на ванильных датасетах? Сделайте свой датасет, со своими приколами и сделайте оценку, насколько правильно модель отловит сущности
Так а зачем кому-то учиться на тесте и получать завышенный скор?
Что-бы например хайпануть и привлечь внимание, а вы разбирайтесь, модель хорошая или я жулик
Ноунейм готов к этому. Не верится что все держится на честном слове(
Если речь про соревнования, то там тест скрывают. Либо только лейблы. Либо даже примеры, требуя сабмитить систему, которая делает предсказания.
Не соревнования, а бенчмарки, которые например указывают в статьях на архиве
вот недавно выпустили статью, в которой опровергают заявление о сдаче GPTшкой экзамена для юристов лучше 95% людей (цифры в блоге OpenAI) в реальности, утверждают в статье, она всего лишь лучше 40-70%
цифры примерные, степень отличия вроде сохранил
там всё сложнее всё-таки: - gpt-4 деградирует с момента релиза из-за закручивания гаек - цифры перцентилей за разные годы
GPT4 модель за API не меняли с момента релиза с марта. В чем именно выражается деградация, можно спросить?
https://youtu.be/qbIk7-JPB2c?t=1572 веб версия менялась неоднократно про api точно неправда, прямо сейчас есть gpt-4 и gpt-4-0314
Да, web версия - это ChatGPT, отдельный продукт для людей. Он развивается. Но API для интеграции они не трогали. GPT-4 сейчас указывает на GPT-4-03xx. Это как с тегами в докере. С марта оно не менялось, было официальное подтверждение от OpenAI. Это ещё долго на HN обсуждали))
да, я ошибся, gpt-4 и gpt-4-0314 действительно одно и то же
Обсуждают сегодня