циклом по всем фрагметам, пытаясь вытащить ответ,
выбрать лучший
это экстракция, BERT или BERT-like
2. дообучить GPT на собственном документе,
применяя для улучшения качества тренировочную и валидационную выборки
как формировать/распределять выборки - отдельный вопрос
при дообучении следить, чтобы не было переобучения, останавливать вручную или автоматичекси
это генерация, GPT или GPT-like
в целом верно понимаю?
1. Может быть так, что ответ в нескольких чанках, которые не рядом? Если да, я бы через эмбеддинги, потом Х ближайших выбрал и уже в них искал / вытягивал ответ ЛМкой Коллеги могут поправить, если ошибаюсь
Ну эт собственно ретривиал qa со второй картинки
Да-да, картинку видел.
Обсуждают сегодня