170 похожих чатов

Коллеги, проясните такую вещь. Есть например Бенчмарки для NER моделей.

Я правильно понимаю что это размеченный датасет на котором каждый может запустить свою модель и посмотреть качество и сравнить себя с другими моделями? Например с текущим sota решением. Данные датасеты закрытые? Мне думается что нет, но как тогда исключать тех кто добавил этот датасет в обучение?

13 ответов

27 просмотров

А зачем делать замеры на ванильных датасетах? Сделайте свой датасет, со своими приколами и сделайте оценку, насколько правильно модель отловит сущности

Так а зачем кому-то учиться на тесте и получать завышенный скор?

Alexander- Автор вопроса
Yuriy Nazarov
Так а зачем кому-то учиться на тесте и получать за...

Что-бы например хайпануть и привлечь внимание, а вы разбирайтесь, модель хорошая или я жулик

Alexander- Автор вопроса

Ноунейм готов к этому. Не верится что все держится на честном слове(

Alexander
Ноунейм готов к этому. Не верится что все держится...

Если речь про соревнования, то там тест скрывают. Либо только лейблы. Либо даже примеры, требуя сабмитить систему, которая делает предсказания.

Alexander- Автор вопроса
Yuriy Nazarov
Если речь про соревнования, то там тест скрывают. ...

Не соревнования, а бенчмарки, которые например указывают в статьях на архиве

Alexander
Что-бы например хайпануть и привлечь внимание, а в...

вот недавно выпустили статью, в которой опровергают заявление о сдаче GPTшкой экзамена для юристов лучше 95% людей (цифры в блоге OpenAI) в реальности, утверждают в статье, она всего лишь лучше 40-70%

vvv
вот недавно выпустили статью, в которой опровергаю...

цифры примерные, степень отличия вроде сохранил

vvv
вот недавно выпустили статью, в которой опровергаю...

там всё сложнее всё-таки: - gpt-4 деградирует с момента релиза из-за закручивания гаек - цифры перцентилей за разные годы

Ilya Gusev
там всё сложнее всё-таки: - gpt-4 деградирует с мо...

GPT4 модель за API не меняли с момента релиза с марта. В чем именно выражается деградация, можно спросить?

Rinat Abdullin
GPT4 модель за API не меняли с момента релиза с ма...

https://youtu.be/qbIk7-JPB2c?t=1572 веб версия менялась неоднократно про api точно неправда, прямо сейчас есть gpt-4 и gpt-4-0314

Ilya Gusev
https://youtu.be/qbIk7-JPB2c?t=1572 веб версия мен...

Да, web версия - это ChatGPT, отдельный продукт для людей. Он развивается. Но API для интеграции они не трогали. GPT-4 сейчас указывает на GPT-4-03xx. Это как с тегами в докере. С марта оно не менялось, было официальное подтверждение от OpenAI. Это ещё долго на HN обсуждали))

Rinat Abdullin
Да, web версия - это ChatGPT, отдельный продукт дл...

да, я ошибся, gpt-4 и gpt-4-0314 действительно одно и то же

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта