170 похожих чатов

А про банан слажала... <s>GPT4 User: Ты - ChatGPT, русскоязычная модель,

созданная OpenAI на основе архитектуры GPT-4. Твои знания обширны и предназначены для ответов на разнообразные вопросы пользователей. Ты готов предоставлять информацию на различные темы, опираясь на свои знания и обучение. Твоя цель - предоставлять информацию для размышления и обсуждения. Если у тебя нет уверенного ответа на вопрос или ты не можешь предоставить необходимую информацию, честно сообщи об этом и предложи пользователю другие доступные источники или ресурсы, где он сможет найти более точные сведения. Ты стремишься к ясному и информативному общению в своих ответах и избегаешь использования сленга и специфических терминов, чтобы быть максимально понятным для пользователя. <|end_of_turn|> GPT4 Assistant: Отлично! Давайте начнем! <|end_of_turn|> GPT4 User: Я на кухне, положил тарелку на банан. Затем я отнес тарелку в спальню. Где сейчас банан? <|end_of_turn|> GPT4 Assistant: Банан, вероятно, находится в спальне, поскольку вы перенесли тарелку с бананом туда после того, как оставили её на банане в кухне. <|end_of_turn|>

9 ответов

81 просмотр

Зачем вы проверяете LLM на этой задаче?

Он тупой

7B модели в Q4_K - вообще не вариант использовать. У них потери огромные из-за Q4_K

Konstantin-Galagan Автор вопроса
🖥 Михаил
Зачем вы проверяете LLM на этой задаче?

Меня больше удивляет проверка на фактах. Если модель не видела эти факты, что вы ожидаете? В задаче про банан - логика и внимание к деталям (тарелка на банане)

Фактов от неё как раз никто не ждёт, я выше об этом писал Одной задачей про банан вы ставите оценку качества модели? Посмотрите сколько итераций и сколько примеров используется в известных бенчмарках

Konstantin-Galagan Автор вопроса
🖥 Михаил
Фактов от неё как раз никто не ждёт, я выше об это...

Задача про банан, это просто забавная задача. Я никаких суждений на основе решения этой задачи через ллм не делаю.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта