Всех приветствую, такой вопрос, есть датасет из "Вопрос" и "Ответ"

Question

Big Data Science :: AI / Big Data / Machine Learning / MLOps

Всех приветствую, такой вопрос, есть датасет из "Вопрос" и "Ответ"

в формате json
Некие данные чат диалога
Задача сделать трансформер чат бот что бы на основе этих данных можно было вести диалог

Вопрос такой, как можно представить датасет для обучения модели, принципиально ли разделять тот вопрос и какой ответ был на него, какую архитектуру тогда использовать?
или в таком случаю достаточно будет привести к одному типу данные и получить корпус токенов и не важно где вопрос и ответ

#database #programming #russian #software

0

02.05.2023

5 ответов

70 просмотров

Dan Capybara

https://radioprog.ru/post/792 https://dzen.ru/a/YlLm8AD7ZDFYf873 https://habr.com/ru/companies/wunderfund/articles/592231/ https://www.youtube.com/watch?v=NBtQmjnhFrA&ysclid=lh6mmrtv9w576786780 https://huggingface.co/learn/nlp-course/ru/chapter1/4?fw=pt

0

02.05.2023

human Автор вопроса

Dan Capybara
https://radioprog.ru/post/792 https://dzen.ru/a/Yl...

А если наперёд сказать, есть ли существенная разница в датасете вопрос - ответ или мы может с таким же успехом использовать просто текст как либо

0

02.05.2023

Дмитрий Люткин

Dan Capybara
Структура датасета может быть примерно такой: { ...

Зачем приводить в нижний регистр и убирать символы для трансформера? https://datascience.stackexchange.com/questions/62862/preprocessing-for-text-classification-in-transformer-models-bert-variants

0

02.05.2023

Kim Young

Дмитрий Люткин
Зачем приводить в нижний регистр и убирать символы...

Не знаю точно, но могу предположить, что Привет, привет, приВет - 3 разных слова

0

02.05.2023

Dan Capybara · Accepted Answer

Структура датасета может быть примерно такой: { "data": [ { "question": "Какое время?", "answer": "Сейчас 2 часа дня." }, { "question": "Как тебя зовут?", "answer": "Меня зовут Алексей." }, ... ] } ну и при подготовке данных надо всё нормализовать: привести в нижнему регистру, убрать лишние символы, токенизировать, перевести числа в слова (и их тоже токенизировать), ну и далее создавать обучающую выборку из пар вопрос-ответ (вход/выход соответственно)

215 похожих чатов

Всех приветствую, такой вопрос, есть датасет из "Вопрос" и "Ответ"

5 ответов

Похожие вопросы