генерирует какой-то текст пользователю и пользователь оценивает качество сгенерированного текста (правильно/неправильно). Каким образом можно дообучить модель, чтобы она старалась выдавать пользователю именно правильный текст? Насколько я понял, обычный BERT дает возможность решать задачу классификации, но применимо ли оно в такой задаче?
Можно с помощью RL попробовать, как тут: https://openai.com/blog/learning-to-summarize-with-human-feedback/ Ну или просто генерировать языковой моделью несколько вариантов, а бертом отбирать наиболее привлекательный.
пользователь же оценивает если модель то почитайте про перплексию
спасибо, почитаю. звучит как что-то очень близкое к моей задаче
Обсуждают сегодня