в формате json
Некие данные чат диалога
Задача сделать трансформер чат бот что бы на основе этих данных можно было вести диалог
Вопрос такой, как можно представить датасет для обучения модели, принципиально ли разделять тот вопрос и какой ответ был на него, какую архитектуру тогда использовать?
или в таком случаю достаточно будет привести к одному типу данные и получить корпус токенов и не важно где вопрос и ответ
Структура датасета может быть примерно такой: { "data": [ { "question": "Какое время?", "answer": "Сейчас 2 часа дня." }, { "question": "Как тебя зовут?", "answer": "Меня зовут Алексей." }, ... ] } ну и при подготовке данных надо всё нормализовать: привести в нижнему регистру, убрать лишние символы, токенизировать, перевести числа в слова (и их тоже токенизировать), ну и далее создавать обучающую выборку из пар вопрос-ответ (вход/выход соответственно)
https://radioprog.ru/post/792 https://dzen.ru/a/YlLm8AD7ZDFYf873 https://habr.com/ru/companies/wunderfund/articles/592231/ https://www.youtube.com/watch?v=NBtQmjnhFrA&ysclid=lh6mmrtv9w576786780 https://huggingface.co/learn/nlp-course/ru/chapter1/4?fw=pt
А если наперёд сказать, есть ли существенная разница в датасете вопрос - ответ или мы может с таким же успехом использовать просто текст как либо
Зачем приводить в нижний регистр и убирать символы для трансформера? https://datascience.stackexchange.com/questions/62862/preprocessing-for-text-classification-in-transformer-models-bert-variants
Не знаю точно, но могу предположить, что Привет, привет, приВет - 3 разных слова
Обсуждают сегодня