Допустим, мне нужен ответ некоторой генеративки (T5/GPT/llama 2 -- пока

Question

Допустим, мне нужен ответ некоторой генеративки (T5/GPT/llama 2 -- пока

не так важно) уметь выдавать на разных языках в зависимости от входного запроса, в том числе вероятно и на low-resource languages.

Можете потыкать меня в какие-нибудь статьи, где так делалось, или кто-то может сам делал?

Интересует

1. Можно ли на тяжелых моделях это делать только на уровне промпта, без эксплицитного переводчика?
2. Если есть какой-то переводчик-пре/постпроцессор, то что сейчас SOTa, в идеале не по внешнему апи, а чтобы внутри работало? На nlpprogress все выглядит староватым

#nlp #programming #russian

0

31.08.2023

15 ответов

34 просмотра

datascience xc

Щас уже seamlessm4t есть

0

31.08.2023

Daniil

datascience xc
Щас уже seamlessm4t есть

для текста там под капотом NLLB

0

31.08.2023

datascience xc

Daniil
для текста там под капотом NLLB

Обновленная же?

0

31.08.2023

Daniil

ну да, но там где-то даже буста нет

0

31.08.2023

Denis Kirjanov Автор вопроса

спасибо! А у NLLB есть пригодные для коммерческого использования аналоги?

0

31.08.2023

Daniil

Denis Kirjanov
спасибо! А у NLLB есть пригодные для коммерческого...

есть, их много, но они хуже nllb

0

31.08.2023

datascience xc

Daniil
есть, их много, но они хуже nllb

А датасет nllb не выкладывали?

0

31.08.2023

Denis Kirjanov Автор вопроса

Daniil
есть, их много, но они хуже nllb

а есть бенчмарки хорошие? я верил в nlpprogress, но видимо он перестал адекватно обновляться

0

31.08.2023

Daniil

Denis Kirjanov
а есть бенчмарки хорошие? я верил в nlpprogress, н...

ну тут надо сперва понять, какие языки должны поддерживаться

0

31.08.2023

Ilya Gusev

datascience xc
А датасет nllb не выкладывали?

вот воспроизведенный же: https://huggingface.co/datasets/allenai/nllb

0

31.08.2023

Denis Kirjanov Автор вопроса

Daniil
ну тут надо сперва понять, какие языки должны подд...

ну, достаточно топовые для начала давайте считать, что входящие в топ-50 по ресурсности

0

31.08.2023

Daniil

Denis Kirjanov
ну, достаточно топовые для начала давайте считать,...

выше написал примеры

0

31.08.2023

David Dalé

Ilya Gusev
вот воспроизведенный же: https://huggingface.co/da...

Уточнение. Это половина обучающих данных(намайненная командой NLLB из commoncrawl и других непараллельных источников), а вторая половина – это «внешние» по отношению к NLLB параллельные корпусы, список которых есть тут. Думаю, если скомбинировать эти два источника данных для нужных вам языков и дообучить на этом любую мультиязычную seq2seq модель (например, что-то из семейства T5) с нужной вам лицензией, то получится качество близкое к NLLB. Может быть, даже и лучше, если вы добавите/нааугментируете обучающих данных под ваш домен.

0

31.08.2023

David Dalé

Daniil
ну да, но там где-то даже буста нет

Не ту табличку смотрите. Sonar – это fixed-size энкодер и декодер, который использовался как вспомогательная модель для Seamless (например, для майнинга параллельных текстов). Так что он благодаря архитектуре работает заведомо хуже NLLB. А основная Seamless модель, M4T, работает самую малость лучше чем NLLB, но при этом поддерживает вдвое меньше языков, так что для текстового перевода все ещё SOTA – NLLB, а у Seamless фишка чисто в поддержке аудио модальности.

0

31.08.2023

Daniil · Accepted Answer

Daniil

2. NLLB-200 1. Да, но качество ответов будет ухудшаться примерно прямо пропорционально количеству данных на этом языке в предобучении модели.

0

31.08.2023

170 похожих чатов

Допустим, мне нужен ответ некоторой генеративки (T5/GPT/llama 2 -- пока

15 ответов

Похожие вопросы