не так важно) уметь выдавать на разных языках в зависимости от входного запроса, в том числе вероятно и на low-resource languages.
Можете потыкать меня в какие-нибудь статьи, где так делалось, или кто-то может сам делал?
Интересует
1. Можно ли на тяжелых моделях это делать только на уровне промпта, без эксплицитного переводчика?
2. Если есть какой-то переводчик-пре/постпроцессор, то что сейчас SOTa, в идеале не по внешнему апи, а чтобы внутри работало? На nlpprogress все выглядит староватым
2. NLLB-200 1. Да, но качество ответов будет ухудшаться примерно прямо пропорционально количеству данных на этом языке в предобучении модели.
Щас уже seamlessm4t есть
для текста там под капотом NLLB
Обновленная же?
ну да, но там где-то даже буста нет
спасибо! А у NLLB есть пригодные для коммерческого использования аналоги?
есть, их много, но они хуже nllb
А датасет nllb не выкладывали?
а есть бенчмарки хорошие? я верил в nlpprogress, но видимо он перестал адекватно обновляться
ну тут надо сперва понять, какие языки должны поддерживаться
вот воспроизведенный же: https://huggingface.co/datasets/allenai/nllb
ну, достаточно топовые для начала давайте считать, что входящие в топ-50 по ресурсности
выше написал примеры
Уточнение. Это половина обучающих данных(намайненная командой NLLB из commoncrawl и других непараллельных источников), а вторая половина – это «внешние» по отношению к NLLB параллельные корпусы, список которых есть тут. Думаю, если скомбинировать эти два источника данных для нужных вам языков и дообучить на этом любую мультиязычную seq2seq модель (например, что-то из семейства T5) с нужной вам лицензией, то получится качество близкое к NLLB. Может быть, даже и лучше, если вы добавите/нааугментируете обучающих данных под ваш домен.
Не ту табличку смотрите. Sonar – это fixed-size энкодер и декодер, который использовался как вспомогательная модель для Seamless (например, для майнинга параллельных текстов). Так что он благодаря архитектуре работает заведомо хуже NLLB. А основная Seamless модель, M4T, работает самую малость лучше чем NLLB, но при этом поддерживает вдвое меньше языков, так что для текстового перевода все ещё SOTA – NLLB, а у Seamless фишка чисто в поддержке аудио модальности.
Обсуждают сегодня