А сейчас уже есть какие то наработки на тему того

Вроде были какие-то papers на тему повышения достоверности ответов ЛЛМ с использованием human reinforcement Но ЛЛМ стремится "предсказать" следующий токен, а не дать достоверный ответ. Так что в теории, наверное это и возможно, и скорее всего на arxiv лежит несколько papers на эту тему, а на hugging face есть хотя бы один датасет / модель. Но вряд ли это распространенно, вспоминаем случай Galactica которую за неумение говорить не знаю и выключили. Извиняюсь, что мог дать косой ответ, я сам занимаюсь НЛП и ЛЛМ как хобби в свободное время от учёбы и работы.

170 похожих чатов

А сейчас уже есть какие то наработки на тему того

5 ответов

Похожие вопросы