контекста, то и данные надо как-то размечать. У меня сейчас два датасета, первый это чаты в телеге, где я беру только сообщения, где есть reply, и таким образом получаю пару "вопрос/ответ", качество данных по идее должно быть лучше, но контекст может теряться. Если брать просто подряд все сообщения, то возникнет путаница (можно даже на сообщения выше посмотреть, и станет понятно), или я ошибаюсь, и всё нормально будет?
Ну я боюсь в заблуждение вас ввести, потому что этой задачей не занимался, но вопрос/ответ это зачастую часть контекста, который состоит из последовательности вопрос/ответ/вопрос/ответ ... для самый простых случае в диалоге, у вас контекст будет прямо наверху вашей пары вопрос ответ.
Датасеты большие?
Обсуждают сегодня