170 похожих чатов

Допустим, мне нужен ответ некоторой генеративки (T5/GPT/llama 2 -- пока

не так важно) уметь выдавать на разных языках в зависимости от входного запроса, в том числе вероятно и на low-resource languages.

Можете потыкать меня в какие-нибудь статьи, где так делалось, или кто-то может сам делал?

Интересует

1. Можно ли на тяжелых моделях это делать только на уровне промпта, без эксплицитного переводчика?
2. Если есть какой-то переводчик-пре/постпроцессор, то что сейчас SOTa, в идеале не по внешнему апи, а чтобы внутри работало? На nlpprogress все выглядит староватым

15 ответов

15 просмотров

2. NLLB-200 1. Да, но качество ответов будет ухудшаться примерно прямо пропорционально количеству данных на этом языке в предобучении модели.

Щас уже seamlessm4t есть

datascience xc
Щас уже seamlessm4t есть

для текста там под капотом NLLB

ну да, но там где-то даже буста нет

Denis-Kirjanov Автор вопроса

спасибо! А у NLLB есть пригодные для коммерческого использования аналоги?

Daniil
есть, их много, но они хуже nllb

А датасет nllb не выкладывали?

Denis-Kirjanov Автор вопроса
Daniil
есть, их много, но они хуже nllb

а есть бенчмарки хорошие? я верил в nlpprogress, но видимо он перестал адекватно обновляться

Denis Kirjanov
а есть бенчмарки хорошие? я верил в nlpprogress, н...

ну тут надо сперва понять, какие языки должны поддерживаться

datascience xc
А датасет nllb не выкладывали?

вот воспроизведенный же: https://huggingface.co/datasets/allenai/nllb

Denis-Kirjanov Автор вопроса
Daniil
ну тут надо сперва понять, какие языки должны подд...

ну, достаточно топовые для начала давайте считать, что входящие в топ-50 по ресурсности

Ilya Gusev
вот воспроизведенный же: https://huggingface.co/da...

Уточнение. Это половина обучающих данных(намайненная командой NLLB из commoncrawl и других непараллельных источников), а вторая половина – это «внешние» по отношению к NLLB параллельные корпусы, список которых есть тут. Думаю, если скомбинировать эти два источника данных для нужных вам языков и дообучить на этом любую мультиязычную seq2seq модель (например, что-то из семейства T5) с нужной вам лицензией, то получится качество близкое к NLLB. Может быть, даже и лучше, если вы добавите/нааугментируете обучающих данных под ваш домен.

Daniil
ну да, но там где-то даже буста нет

Не ту табличку смотрите. Sonar – это fixed-size энкодер и декодер, который использовался как вспомогательная модель для Seamless (например, для майнинга параллельных текстов). Так что он благодаря архитектуре работает заведомо хуже NLLB. А основная Seamless модель, M4T, работает самую малость лучше чем NLLB, но при этом поддерживает вдвое меньше языков, так что для текстового перевода все ещё SOTA – NLLB, а у Seamless фишка чисто в поддержке аудио модальности.

Похожие вопросы

Обсуждают сегодня

а через ESC-код ?
Alexey Kulakov
29
30500 за редактор? )
Владимир
47
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
13
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Как передать управляющий символ в открытую через CreateProcess консоль? Собсна, есть процедура: procedure TRedirectThread.WriteData(Data: OEMString); var Written: Cardinal;...
Serjone
6
в JclConsole объявлено так: function CtrlHandler(CtrlType: DWORD): BOOL; stdcall; - где ваше объявление с stdcall? у вас на картинке нет stdcall
Karagy
8
Ребят в СИ можно реализовать ООП?
Николай
33
program test; {$mode delphi} procedure proc(v: int32); overload; begin end; procedure proc(v: int64); overload; begin end; var x: uint64; begin proc(x); end. Уж не знаю...
notme
6
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта