в corus, но в основном это новости и литература. При этом предполагается использовать решение в более "социальном" домене и встал вопрос, где взять данные, которые корректные с точки зрения пунктуации и при этом содержали бы в себе сленг, возможно, мат и были ближе к чему-то такому "твиттерскому".
Т.е. выискивать отдельные блоги отдельных людей, составлять их список и потом парсить не хочется. Может, у кого-то есть идеи, где можно взять много и сразу?
м. б., https://study.mokoron.com/ ?
Ну там, кажется, было все без разбора в плане грамотности
можно заменять часть по w2v2w внутри классических корпусов. можно взять сет стайлтрансфера по детеоксификации и выкинуть вообще все знаки, а затем загнать это все в t5/bart (https://www.vennify.ai/fine-tune-grammar-correction/)
Можно попробовать из корпуса текстов соц-сетей вытягивать тексты, похожие на новостные. К примеру векторизуем новостной текст и находим ближайший к нему вектор из соц корпуса. Есть вероятность, что по синтаксической структуре эти предложения будут похожи
Интересная мысль, спасибо
Обсуждают сегодня