215 похожих чатов

Всех приветствую, такой вопрос, есть датасет из "Вопрос" и "Ответ"

в формате json
Некие данные чат диалога
Задача сделать трансформер чат бот что бы на основе этих данных можно было вести диалог

Вопрос такой, как можно представить датасет для обучения модели, принципиально ли разделять тот вопрос и какой ответ был на него, какую архитектуру тогда использовать?
или в таком случаю достаточно будет привести к одному типу данные и получить корпус токенов и не важно где вопрос и ответ

5 ответов

60 просмотров

Структура датасета может быть примерно такой: { "data": [ { "question": "Какое время?", "answer": "Сейчас 2 часа дня." }, { "question": "Как тебя зовут?", "answer": "Меня зовут Алексей." }, ... ] } ну и при подготовке данных надо всё нормализовать: привести в нижнему регистру, убрать лишние символы, токенизировать, перевести числа в слова (и их тоже токенизировать), ну и далее создавать обучающую выборку из пар вопрос-ответ (вход/выход соответственно)

https://radioprog.ru/post/792 https://dzen.ru/a/YlLm8AD7ZDFYf873 https://habr.com/ru/companies/wunderfund/articles/592231/ https://www.youtube.com/watch?v=NBtQmjnhFrA&ysclid=lh6mmrtv9w576786780 https://huggingface.co/learn/nlp-course/ru/chapter1/4?fw=pt

human- Автор вопроса
Dan Capybara
https://radioprog.ru/post/792 https://dzen.ru/a/Yl...

А если наперёд сказать, есть ли существенная разница в датасете вопрос - ответ или мы может с таким же успехом использовать просто текст как либо

Dan Capybara
Структура датасета может быть примерно такой: { ...

Зачем приводить в нижний регистр и убирать символы для трансформера? https://datascience.stackexchange.com/questions/62862/preprocessing-for-text-classification-in-transformer-models-bert-variants

Дмитрий Люткин
Зачем приводить в нижний регистр и убирать символы...

Не знаю точно, но могу предположить, что Привет, привет, приВет - 3 разных слова

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта