170 похожих чатов

Добрый день, а посоветуете NLI датасеты для русского языка, они

существуют в открытом доступе вобще?

8 ответов

10 просмотров

на RussianSuperGlue есть Terra и RCB маленькие

Я в своё время переводил крупнейшие английские датасеты на русский (Яндексом): https://habr.com/ru/articles/582620/ Ну и не только я - на HF есть, например, https://huggingface.co/datasets/MoritzLaurer/multilingual-NLI-26lang-2mil7. Плюс есть несколько вариаций небольших XNLI датасетов, где примеры были переведены на кучу языков, включая русский. Самый известный - https://huggingface.co/datasets/xnli. Плюс датасеты из RussianSuperGLUE, которые Данил упомянул: https://huggingface.co/datasets/RussianNLP/russian_super_glue/viewer/terra/train

David Dalé
Я в своё время переводил крупнейшие английские дат...

А яндексом переводил, вместо гугля, потому что он чем-то лучше? Если переводить сейчас, использовал бы NLLB или по прежнему яндекс?

Al Zatv
А яндексом переводил, вместо гугля, потому что он ...

Если честно, их я напрямую не бенчмаркал, и выбрал тогда яндекс, просто потому что исторически его перевод для русского больше любил) По-хорошему, конечно, стоило глазами отсмотреть side-by-side переводы для небольшой выборки из датасета, и выбрать тот переводчик, который в среднем адекватнее. Априори я ожидаю что "из коробки" коммерческие переводчики типа яндекса или гугла справятся лучше, чем академическая модель типа NLLB, потому что их разработчики больше потрудились над робастностью. Но, с другой стороны, если запускать модель самостоятельно, то можно её потюнить под собственную задачу, а гугл/яндекс такого не позволяют.

David Dalé
Если честно, их я напрямую не бенчмаркал, и выбрал...

Давид , а что бы ты посоветовал для аугментации таких датасетов? у меня уже есть переведенные google translate разные датасеты с английского для NLI, но например хочется порядок слов другой - и вообще имеет ли смысл в этом? (мотивация сделать более робаст модель , не сильно biased на кокретной модели переводчике)

Al Zatv
А яндексом переводил, вместо гугля, потому что он ...

да, соглашусь, надо руками смотреть, из моего опыта на разных языках NLLB все таки проигрывала google translate . но зависит от языка. у меня была как-то довольно специфичная таска , извлечь информацию (сущности, и отношения) из индонезийского судебного отчета. сначала была попытка сделать это именно переводом на английский и вот NLLB как-то совсем плохо справлялся. (в итоге от идеи использования перевода кстати пришлось отказаться, и взять готовые модели)

᠌Vladimir Gurevich
Давид , а что бы ты посоветовал для аугментации та...

Я сам не занимался исследованиями о том, насколько перефразирование докидывает к качеству для таких задач, так что могу ответить только на уровне здравого смысла, а не экспериментальных результатов. Хотя есть, например, недавняя статья с ACL, показывающая, что если перефразировать тексты, современные модели NLI в ~10% случаев меняют предсказание, так что, кажется, они не супер устойчивые, и аугментировать есть смысл. Я сам два года назад пришел к выводу, что наилучший баланс качество/разнообразие для перефразирования на русском дает обратный перевод. В недавних статьях для перефразирования, помимо обратного перевода на естественные языки, используют обратный перевод на искусственные языки типа AMR (https://aclanthology.org/2023.acl-long.447), пофайнтюненный на парафразах T5 (https://aclanthology.org/2023.acl-short.76/) или BART (https://aclanthology.org/2023.acl-long.206/), и LLM с few-shot обучением (https://aclanthology.org/2023.acl-short.59/, https://aclanthology.org/2023.acl-long.390/). В последней статье сравнивали, как разные парафразеры влияют на качество NER, и у них GPT лучше всего себя проявил.

David Dalé
Я сам не занимался исследованиями о том, насколько...

хм, интересно, хорошая пища для размышлений - у меня тоже на практике были моменты, когда парафразы меняли такое поведение у NLI , но с другой стороны те попытки , что я делал для аугментации (довольно тривиальные аугментации по типу перестановок) действительно ухудшали качество. модель начинает на старом спотыкаться. у меня даже была мысль попереводить с разных языков , а не только на английский (чтобы разнообразить качество корпуса) для случае мультиязыковых паралелльных корпусов (в целом кажется интуитивно что и мультиязыковые модели тут могут лучше себя проявить)

Похожие вопросы

Обсуждают сегодня

Какой-то там пердун в 90-х решил, что есть какая-то разная типизация. Кого вообще это волнует?
КТ315
49
void terminal_scroll() { memmove(terminal_buffer, terminal_buffer + VGA_WIDTH, buffer_size - VGA_WIDTH); memset(terminal_buffer + buffer_size - VGA_WIDTH, 0, VGA_WIDTH); ...
Егор
47
Всем привет! Подскажите, пожалуйста, в чем ошибка? Настраиваю подключение к MySQL. Либы лежат рядом с exe. Все как по "учебнику"
Евгений
16
А можете как-то проверить меня по знаниям по ассемблеру?
A A
132
Здравствуйте! У меня появилась возможность купить книгу "Изучай Haskell во имя добра!". Но я где-то слышал, что эта книга устарела. Насколько это правда??
E
22
Здравствуйте! Я вот на stepic решаю задачи на хаскеле https://stepik.org/lesson/8443/step/8?unit=1578 мой код import Data.List (isInfixOf) removing :: String -> [String] ->...
E
10
Камрады, кто тесно работал с vtv, хотел уточнить. Ширина column задаётся жёстко на этапе создания дерева или можно в рантайме ее менять программно (не мышкой)?
Ed Doc
10
да ладно ... что там неочевидного ? глянуть в исх-ки датасета и/или кверика чтобы понять в каком месте и как выполняется обращения к св-вам blablaSQL - минутное дело, даже е...
Сергей
7
Здесь для arm кто-нибудь кодит ?
Nothing
52
Всем привет, у меня есть сервер принимающий входящие HTTP подключения, как проверить, что подключение было через прокси или нет, есть какие то поля в заголовках по которым мо...
DS
8
Карта сайта