тем, у кого есть к ней доступ, чтобы замерили?
https://t.me/llm_driven_products/1975
разведось бенчмарков :)
Хорошо же)
3 недели назад https://t.me/llm_under_hood/54 code были: gpt-4 100, claude-v1 92. Сейчас 78 и 42. Непонятно что этот бенчмарк измеряет, и почему меняется.
модели в сервисах, к слову, тоже обновляются, не всегда в лучшую сторону
За claude-v2 обидно, да. Ну и за улучшение GPT-4 в области кода, в ущерб другим областям.
Да, очень интересно что меняют обновления. Разве они проводят дообучение, база данных исключений мб просто?
проводят. там где-то даже приписка есть о номере версии. мелким шрифтом
Обсуждают сегодня