170 похожих чатов

Можно как-нибудь применять RLHF для задачи классификации(token/sentence)? Если для диалогов

так хорошо зашло, может и для более простых задач можно применить? Есть что почитать на эту тему? Подобные примеры применения не нашёл, а хочется позапускать блокноты 📝 самому

3 ответов

13 просмотров

Нет. RL нужен для задач решаемых за много шагов. Например авторегрессионная генерация текста. Классификацию обычно Бертом за одно применение модели решают.

Yuriy Nazarov
Нет. RL нужен для задач решаемых за много шагов. Н...

Если у вас LLM + Chain of thoughts, то может и подойдёт.

Идея RLHF - в том, что есть дополнительная модель, которая обучена предсказывать качество ответа основной модели, а основная модель, в свою очередь, потом обучается это предсказанное качество максимизировать. Весь этот цирк нужен только потому, что в задаче генерации текстового ответа на произвольный вопрос очень сложно автоматически оценить качество. А в задачах типа классификации, где качество естественным образом оценивается как вероятность предсказания верного ответа, отдельный трансформер для оценки качества вряд ли сможет принести заметную пользу.

Похожие вопросы

Обсуждают сегодня

а через ESC-код ?
Alexey Kulakov
29
30500 за редактор? )
Владимир
47
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
13
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
program test; {$mode delphi} procedure proc(v: int32); overload; begin end; procedure proc(v: int64); overload; begin end; var x: uint64; begin proc(x); end. Уж не знаю...
notme
6
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
6
вы делали что-то подобное и как? может есть либы готовые? увидел картинку нокода, где всё линиями соединено и стало интересно попробовать то же в ddl на lua сделать. решил с ч...
Victor
8
Ребят в СИ можно реализовать ООП?
Николай
33
Подскажите пожалуйста, как в CustomDrawCell(Sender: TcxCustomGridTableView; ACanvas: TcxCanvas; AViewInfo: TcxGridTableDataCellViewInfo; var ADone: Boolean); получить наз...
A Z
7
Карта сайта