Всем привет. Встала задачка восстановления пунктуации, собираю данные. Нашел много годного

Question

Всем привет. Встала задачка восстановления пунктуации, собираю данные. Нашел много годного

в corus, но в основном это новости и литература. При этом предполагается использовать решение в более "социальном" домене и встал вопрос, где взять данные, которые корректные с точки зрения пунктуации и при этом содержали бы в себе сленг, возможно, мат и были ближе к чему-то такому "твиттерскому".
Т.е. выискивать отдельные блоги отдельных людей, составлять их список и потом парсить не хочется. Может, у кого-то есть идеи, где можно взять много и сразу?

#nlp #programming #russian

0

15.04.2022

5 ответов

47 просмотров

Alex Konst Автор вопроса

gisly gisly
м. б., https://study.mokoron.com/ ?

Ну там, кажется, было все без разбора в плане грамотности

0

15.04.2022

Aleksandr

можно заменять часть по w2v2w внутри классических корпусов. можно взять сет стайлтрансфера по детеоксификации и выкинуть вообще все знаки, а затем загнать это все в t5/bart (https://www.vennify.ai/fine-tune-grammar-correction/)

0

15.04.2022

Futorio Franklin

Можно попробовать из корпуса текстов соц-сетей вытягивать тексты, похожие на новостные. К примеру векторизуем новостной текст и находим ближайший к нему вектор из соц корпуса. Есть вероятность, что по синтаксической структуре эти предложения будут похожи

0

15.04.2022

Alex Konst Автор вопроса

Futorio Franklin
Можно попробовать из корпуса текстов соц-сетей выт...

Интересная мысль, спасибо

0

15.04.2022

gisly gisly · Accepted Answer

gisly gisly

м. б., https://study.mokoron.com/ ?

0

15.04.2022

170 похожих чатов

Всем привет. Встала задачка восстановления пунктуации, собираю данные. Нашел много годного

5 ответов

Похожие вопросы