170 похожих чатов

Допустим, мне нужен ответ некоторой генеративки (T5/GPT/llama 2 -- пока

не так важно) уметь выдавать на разных языках в зависимости от входного запроса, в том числе вероятно и на low-resource languages.

Можете потыкать меня в какие-нибудь статьи, где так делалось, или кто-то может сам делал?

Интересует

1. Можно ли на тяжелых моделях это делать только на уровне промпта, без эксплицитного переводчика?
2. Если есть какой-то переводчик-пре/постпроцессор, то что сейчас SOTa, в идеале не по внешнему апи, а чтобы внутри работало? На nlpprogress все выглядит староватым

15 ответов

5 просмотров

2. NLLB-200 1. Да, но качество ответов будет ухудшаться примерно прямо пропорционально количеству данных на этом языке в предобучении модели.

Щас уже seamlessm4t есть

datascience xc
Щас уже seamlessm4t есть

для текста там под капотом NLLB

ну да, но там где-то даже буста нет

Denis-Kirjanov Автор вопроса

спасибо! А у NLLB есть пригодные для коммерческого использования аналоги?

Daniil
есть, их много, но они хуже nllb

А датасет nllb не выкладывали?

Denis-Kirjanov Автор вопроса
Daniil
есть, их много, но они хуже nllb

а есть бенчмарки хорошие? я верил в nlpprogress, но видимо он перестал адекватно обновляться

Denis Kirjanov
а есть бенчмарки хорошие? я верил в nlpprogress, н...

ну тут надо сперва понять, какие языки должны поддерживаться

datascience xc
А датасет nllb не выкладывали?

вот воспроизведенный же: https://huggingface.co/datasets/allenai/nllb

Denis-Kirjanov Автор вопроса
Daniil
ну тут надо сперва понять, какие языки должны подд...

ну, достаточно топовые для начала давайте считать, что входящие в топ-50 по ресурсности

Ilya Gusev
вот воспроизведенный же: https://huggingface.co/da...

Уточнение. Это половина обучающих данных(намайненная командой NLLB из commoncrawl и других непараллельных источников), а вторая половина – это «внешние» по отношению к NLLB параллельные корпусы, список которых есть тут. Думаю, если скомбинировать эти два источника данных для нужных вам языков и дообучить на этом любую мультиязычную seq2seq модель (например, что-то из семейства T5) с нужной вам лицензией, то получится качество близкое к NLLB. Может быть, даже и лучше, если вы добавите/нааугментируете обучающих данных под ваш домен.

Daniil
ну да, но там где-то даже буста нет

Не ту табличку смотрите. Sonar – это fixed-size энкодер и декодер, который использовался как вспомогательная модель для Seamless (например, для майнинга параллельных текстов). Так что он благодаря архитектуре работает заведомо хуже NLLB. А основная Seamless модель, M4T, работает самую малость лучше чем NLLB, но при этом поддерживает вдвое меньше языков, так что для текстового перевода все ещё SOTA – NLLB, а у Seamless фишка чисто в поддержке аудио модальности.

Похожие вопросы

Обсуждают сегодня

А чем вам питонисты не угодили?😂
.
79
Язык Си можно выучить за день? По книжке ANSI C на 230 страниц
Vincent Vegan
29
Всем привет, написал код ниже, но он выдает сегфолт, в чем причина? #include <stdio.h> #include <stdlib.h> #include <string.h> struct product { char *name; float price; };...
buzz базз
75
Dim Dim, [02.07.2024 11:07] DB 0x62 Dim Dim, [02.07.2024 11:07] DB 0x66 Dim Dim, [02.07.2024 11:07] кто пояснит что это?
Dim Dim
14
Ошибка: segmentation fault (core dumped) Код: pastebin.com/BEsNNSSV Сообщение от компилятора: отсутствует ОС: Arch Linux Ядро: x86_64 Linux 6.9.7-arch1-1 Процессор: Intel Cele...
sec
4
Ребят, а за скок можно впарить анон чат с апишкой и веб админкой ?
Eugene Неелов
15
Ещё такой вопрос. Мне необходимо хранить пароль пользователя локально. Для этого планирую использовать ini файл. Это для автозаполнения полей логин и пароль при авторизации. Е...
Евгений
19
Кстати, я тут еще с одной темой столкнулся, вот учу я C++, на таком то ресурсе, а остальные постоянно советуют практиковаться, что то писать, проекты, но как писать если вот т...
aaswq1
7
@ahndmn @ayaw0_0 здарова, на чем пишете?
Aiwan \ (•◡•) / _bot
7
Коллеги, как получить PId для собственного процесса из под линукса?
Роман Лях (rgreat)
6
Карта сайта