170 похожих чатов

Можно как-нибудь применять RLHF для задачи классификации(token/sentence)? Если для диалогов

так хорошо зашло, может и для более простых задач можно применить? Есть что почитать на эту тему? Подобные примеры применения не нашёл, а хочется позапускать блокноты 📝 самому

3 ответов

16 просмотров

Нет. RL нужен для задач решаемых за много шагов. Например авторегрессионная генерация текста. Классификацию обычно Бертом за одно применение модели решают.

Yuriy Nazarov
Нет. RL нужен для задач решаемых за много шагов. Н...

Если у вас LLM + Chain of thoughts, то может и подойдёт.

Идея RLHF - в том, что есть дополнительная модель, которая обучена предсказывать качество ответа основной модели, а основная модель, в свою очередь, потом обучается это предсказанное качество максимизировать. Весь этот цирк нужен только потому, что в задаче генерации текстового ответа на произвольный вопрос очень сложно автоматически оценить качество. А в задачах типа классификации, где качество естественным образом оценивается как вероятность предсказания верного ответа, отдельный трансформер для оценки качества вряд ли сможет принести заметную пользу.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта