Всем привет! Есть размеченный датасет: жалобы и предложения клиентов -> ключевые

Question

Всем привет! Есть размеченный датасет: жалобы и предложения клиентов -> ключевые

слова из жалобы (чего в сервисе не хватает, что лишнее, что работает плохо), тексты достаточно короткие (1-4 предложения, в редких случаях больше), выжимка - 1-6 слов. Всего примеров около 10-12к. Нужно научиться составлять выжимку для новых примеров. Думал попробовать решить эту задачу с помощью seq2seq-моделирования. Подскажите, пожалуйста:

1) есть ли какие-то предобученные модели суммаризации, которые можно пофайнтюнить под эту задачу (русский язык)?
2) достаточно ли на ваш взгляд такого объема обучающей выборки для получения вменяемого качества?

Спасибо!

#database #programming #russian #software

0

15.01.2021

5 ответов

25 просмотров

Эм Константинов

уверен?)

0

16.01.2021

Эм Константинов

зачем seq2seq? затем что это seq2seq

0

16.01.2021

Эм Константинов

я понимаю о чем ты, известно, что google bert в ‘классике’ не может за линию O(n) выплёвывать seq2seq. есть комбинированные подходы, один из которых ты кидал, в котором берт используется как энкодер. и при помощи берт-енкодерв решается именно seq2seq задача. я о том, что bert это модель, а seq2seq это задача) если ты о том, чтобы использовать bert именно для предсказания мешка слов, или выделения ‘поддектса’, то это решение суммаризации не как seq2seq задачи, и теперь я понял это предложение)

0

16.01.2021

Эм Константинов

теперь понял. тут походу именно супревайзд, так как у него есть и ответы. если именно так подходить, то с нуля на 10к seq2seq не натренить. а вот не с нуля - можно

0

16.01.2021

Эм Константинов · Accepted Answer

Эм Константинов

a bert не seq2seq?)

0

16.01.2021

215 похожих чатов

Всем привет! Есть размеченный датасет: жалобы и предложения клиентов -> ключевые

5 ответов

Похожие вопросы