170 похожих чатов

Добрый день, а посоветуете NLI датасеты для русского языка, они

существуют в открытом доступе вобще?

8 ответов

15 просмотров

на RussianSuperGlue есть Terra и RCB маленькие

Я в своё время переводил крупнейшие английские датасеты на русский (Яндексом): https://habr.com/ru/articles/582620/ Ну и не только я - на HF есть, например, https://huggingface.co/datasets/MoritzLaurer/multilingual-NLI-26lang-2mil7. Плюс есть несколько вариаций небольших XNLI датасетов, где примеры были переведены на кучу языков, включая русский. Самый известный - https://huggingface.co/datasets/xnli. Плюс датасеты из RussianSuperGLUE, которые Данил упомянул: https://huggingface.co/datasets/RussianNLP/russian_super_glue/viewer/terra/train

David Dalé
Я в своё время переводил крупнейшие английские дат...

А яндексом переводил, вместо гугля, потому что он чем-то лучше? Если переводить сейчас, использовал бы NLLB или по прежнему яндекс?

Al Zatv
А яндексом переводил, вместо гугля, потому что он ...

Если честно, их я напрямую не бенчмаркал, и выбрал тогда яндекс, просто потому что исторически его перевод для русского больше любил) По-хорошему, конечно, стоило глазами отсмотреть side-by-side переводы для небольшой выборки из датасета, и выбрать тот переводчик, который в среднем адекватнее. Априори я ожидаю что "из коробки" коммерческие переводчики типа яндекса или гугла справятся лучше, чем академическая модель типа NLLB, потому что их разработчики больше потрудились над робастностью. Но, с другой стороны, если запускать модель самостоятельно, то можно её потюнить под собственную задачу, а гугл/яндекс такого не позволяют.

David Dalé
Если честно, их я напрямую не бенчмаркал, и выбрал...

Давид , а что бы ты посоветовал для аугментации таких датасетов? у меня уже есть переведенные google translate разные датасеты с английского для NLI, но например хочется порядок слов другой - и вообще имеет ли смысл в этом? (мотивация сделать более робаст модель , не сильно biased на кокретной модели переводчике)

Al Zatv
А яндексом переводил, вместо гугля, потому что он ...

да, соглашусь, надо руками смотреть, из моего опыта на разных языках NLLB все таки проигрывала google translate . но зависит от языка. у меня была как-то довольно специфичная таска , извлечь информацию (сущности, и отношения) из индонезийского судебного отчета. сначала была попытка сделать это именно переводом на английский и вот NLLB как-то совсем плохо справлялся. (в итоге от идеи использования перевода кстати пришлось отказаться, и взять готовые модели)

᠌Vladimir Gurevich
Давид , а что бы ты посоветовал для аугментации та...

Я сам не занимался исследованиями о том, насколько перефразирование докидывает к качеству для таких задач, так что могу ответить только на уровне здравого смысла, а не экспериментальных результатов. Хотя есть, например, недавняя статья с ACL, показывающая, что если перефразировать тексты, современные модели NLI в ~10% случаев меняют предсказание, так что, кажется, они не супер устойчивые, и аугментировать есть смысл. Я сам два года назад пришел к выводу, что наилучший баланс качество/разнообразие для перефразирования на русском дает обратный перевод. В недавних статьях для перефразирования, помимо обратного перевода на естественные языки, используют обратный перевод на искусственные языки типа AMR (https://aclanthology.org/2023.acl-long.447), пофайнтюненный на парафразах T5 (https://aclanthology.org/2023.acl-short.76/) или BART (https://aclanthology.org/2023.acl-long.206/), и LLM с few-shot обучением (https://aclanthology.org/2023.acl-short.59/, https://aclanthology.org/2023.acl-long.390/). В последней статье сравнивали, как разные парафразеры влияют на качество NER, и у них GPT лучше всего себя проявил.

David Dalé
Я сам не занимался исследованиями о том, насколько...

хм, интересно, хорошая пища для размышлений - у меня тоже на практике были моменты, когда парафразы меняли такое поведение у NLI , но с другой стороны те попытки , что я делал для аугментации (довольно тривиальные аугментации по типу перестановок) действительно ухудшали качество. модель начинает на старом спотыкаться. у меня даже была мысль попереводить с разных языков , а не только на английский (чтобы разнообразить качество корпуса) для случае мультиязыковых паралелльных корпусов (в целом кажется интуитивно что и мультиязыковые модели тут могут лучше себя проявить)

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта