215 похожих чатов

Всех приветствую, такой вопрос, есть датасет из "Вопрос" и "Ответ"

в формате json
Некие данные чат диалога
Задача сделать трансформер чат бот что бы на основе этих данных можно было вести диалог

Вопрос такой, как можно представить датасет для обучения модели, принципиально ли разделять тот вопрос и какой ответ был на него, какую архитектуру тогда использовать?
или в таком случаю достаточно будет привести к одному типу данные и получить корпус токенов и не важно где вопрос и ответ

5 ответов

21 просмотр

Структура датасета может быть примерно такой: { "data": [ { "question": "Какое время?", "answer": "Сейчас 2 часа дня." }, { "question": "Как тебя зовут?", "answer": "Меня зовут Алексей." }, ... ] } ну и при подготовке данных надо всё нормализовать: привести в нижнему регистру, убрать лишние символы, токенизировать, перевести числа в слова (и их тоже токенизировать), ну и далее создавать обучающую выборку из пар вопрос-ответ (вход/выход соответственно)

https://radioprog.ru/post/792 https://dzen.ru/a/YlLm8AD7ZDFYf873 https://habr.com/ru/companies/wunderfund/articles/592231/ https://www.youtube.com/watch?v=NBtQmjnhFrA&ysclid=lh6mmrtv9w576786780 https://huggingface.co/learn/nlp-course/ru/chapter1/4?fw=pt

human- Автор вопроса
Dan 船長
https://radioprog.ru/post/792 https://dzen.ru/a/Yl...

А если наперёд сказать, есть ли существенная разница в датасете вопрос - ответ или мы может с таким же успехом использовать просто текст как либо

Dan 船長
Структура датасета может быть примерно такой: { ...

Зачем приводить в нижний регистр и убирать символы для трансформера? https://datascience.stackexchange.com/questions/62862/preprocessing-for-text-classification-in-transformer-models-bert-variants

Дмитрий Люткин
Зачем приводить в нижний регистр и убирать символы...

Не знаю точно, но могу предположить, что Привет, привет, приВет - 3 разных слова

Похожие вопросы

Обсуждают сегодня

я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
89
читать файл максимально быстро? странный вопрос))
zamtmn
53
How to create an OS in C? what to study?
Linus
18
Всем доброго вечера! Хочу поделиться своим злоключением с человеком, который, как оказалось сюда тоже скидывал свое резюме. Жаль, что я вашу группу не нашел раньше… человек ки...
Роман Ахмедзянов
4
тоесть, указав return eax, сгенерируется никому ненужная инструкция mov eax,eax ?
Aiwan \ (•◡•) / _bot
24
Компания Elif ищет менеджера проектов, который будет заниматься поиском и ведением новых проектов. Прежде чем приступить к работе, вам нужно пройти наш недельный курс, где вы ...
Elif
5
Привет, кто может сделать юзербота с апи? Задачи: - создавать группы - создавать каналы - задавать для созданных каналов аватарку или эмоджи, имя группы - добавлять в группы...
Lencore
11
Вопрос вроде правильно, но что надо сделать, чтоб текст был виден нормально ? ghci> TE.decodeUtf8 $ TE.encodeUtf8 "test - проба" "test - \1087\1088\1086\1073\1072"
Fedor
7
а зачем этот вопрос для удаления из чата?
Mёdkinson Medvezhkin
63
@HemulGM Параметры у AddStream поменялись? Несостыковка какая-то
Катерина Свиридова
12
Карта сайта