существуют в открытом доступе вобще?
на RussianSuperGlue есть Terra и RCB маленькие
Я в своё время переводил крупнейшие английские датасеты на русский (Яндексом): https://habr.com/ru/articles/582620/ Ну и не только я - на HF есть, например, https://huggingface.co/datasets/MoritzLaurer/multilingual-NLI-26lang-2mil7. Плюс есть несколько вариаций небольших XNLI датасетов, где примеры были переведены на кучу языков, включая русский. Самый известный - https://huggingface.co/datasets/xnli. Плюс датасеты из RussianSuperGLUE, которые Данил упомянул: https://huggingface.co/datasets/RussianNLP/russian_super_glue/viewer/terra/train
А яндексом переводил, вместо гугля, потому что он чем-то лучше? Если переводить сейчас, использовал бы NLLB или по прежнему яндекс?
Если честно, их я напрямую не бенчмаркал, и выбрал тогда яндекс, просто потому что исторически его перевод для русского больше любил) По-хорошему, конечно, стоило глазами отсмотреть side-by-side переводы для небольшой выборки из датасета, и выбрать тот переводчик, который в среднем адекватнее. Априори я ожидаю что "из коробки" коммерческие переводчики типа яндекса или гугла справятся лучше, чем академическая модель типа NLLB, потому что их разработчики больше потрудились над робастностью. Но, с другой стороны, если запускать модель самостоятельно, то можно её потюнить под собственную задачу, а гугл/яндекс такого не позволяют.
Давид , а что бы ты посоветовал для аугментации таких датасетов? у меня уже есть переведенные google translate разные датасеты с английского для NLI, но например хочется порядок слов другой - и вообще имеет ли смысл в этом? (мотивация сделать более робаст модель , не сильно biased на кокретной модели переводчике)
да, соглашусь, надо руками смотреть, из моего опыта на разных языках NLLB все таки проигрывала google translate . но зависит от языка. у меня была как-то довольно специфичная таска , извлечь информацию (сущности, и отношения) из индонезийского судебного отчета. сначала была попытка сделать это именно переводом на английский и вот NLLB как-то совсем плохо справлялся. (в итоге от идеи использования перевода кстати пришлось отказаться, и взять готовые модели)
Я сам не занимался исследованиями о том, насколько перефразирование докидывает к качеству для таких задач, так что могу ответить только на уровне здравого смысла, а не экспериментальных результатов. Хотя есть, например, недавняя статья с ACL, показывающая, что если перефразировать тексты, современные модели NLI в ~10% случаев меняют предсказание, так что, кажется, они не супер устойчивые, и аугментировать есть смысл. Я сам два года назад пришел к выводу, что наилучший баланс качество/разнообразие для перефразирования на русском дает обратный перевод. В недавних статьях для перефразирования, помимо обратного перевода на естественные языки, используют обратный перевод на искусственные языки типа AMR (https://aclanthology.org/2023.acl-long.447), пофайнтюненный на парафразах T5 (https://aclanthology.org/2023.acl-short.76/) или BART (https://aclanthology.org/2023.acl-long.206/), и LLM с few-shot обучением (https://aclanthology.org/2023.acl-short.59/, https://aclanthology.org/2023.acl-long.390/). В последней статье сравнивали, как разные парафразеры влияют на качество NER, и у них GPT лучше всего себя проявил.
хм, интересно, хорошая пища для размышлений - у меня тоже на практике были моменты, когда парафразы меняли такое поведение у NLI , но с другой стороны те попытки , что я делал для аугментации (довольно тривиальные аугментации по типу перестановок) действительно ухудшали качество. модель начинает на старом спотыкаться. у меня даже была мысль попереводить с разных языков , а не только на английский (чтобы разнообразить качество корпуса) для случае мультиязыковых паралелльных корпусов (в целом кажется интуитивно что и мультиязыковые модели тут могут лучше себя проявить)
Обсуждают сегодня