Коллеги, всем привет ) кто-нибудь дообучивал сети для машинного перевода собственными

Question

Коллеги, всем привет ) кто-нибудь дообучивал сети для машинного перевода собственными

данными?
например
rut5-base-multitask
Helsinki-NLP/opus-mt-mul-en
facebook/nllb-200-distilled-600M

какие могут быть нюансы?
какие есть результаты?

#nlp #programming #russian

0

31.08.2023

11 ответов

33 просмотра

Kate Sinkova

David Dalé
Дообучал m2m100 и NLLB, работало нормально на тех ...

Давид, а какую метрику вы использовали, чтобы сравнить перевод из коробки и после файн-тюнинга? Как вы определили, что "работало нормально"?)

0

31.08.2023

Kate Sinkova

Тоже в ближайшее время планирую решать эту задачу со своим датасетом. Посоветуйте, пжлст, что полезного почитать? Опыта пока нет. Я так понимаю, нужно изучить туториалы по файн-тюнингу произвольной sec2sec модели

0

31.08.2023

Anatoly Belov Автор вопроса

David Dalé
Дообучал m2m100 и NLLB, работало нормально на тех ...

увидел, спасибо )

0

31.08.2023

David Dalé

Kate Sinkova
Давид, а какую метрику вы использовали, чтобы срав...

ChrF++ (аналог BLEU, но чуть менее чувствительный к написанию слов и иначе отмасштабированный), плюс просто глазками смотрел небольшую выборку переводов на предмет разных косяков.

0

01.09.2023

Daniil

David Dalé
ChrF++ (аналог BLEU, но чуть менее чувствительный ...

chrf++ кажется весьма устаревшей штукой, а COMET-20 (21/22) не пробовал?

0

01.09.2023

᠌Vladimir Gurevich

Kate Sinkova
Тоже в ближайшее время планирую решать эту задачу ...

да, а там годится обычный seq2seq training pipeline на базе библиотеки трансформеров можно туториалы или примеры в гитхабчике также найти, посмотреть, как например - https://github.com/masakhane-io/lafand-mt/blob/main/lafand.ipynb

0

01.09.2023

᠌Vladimir Gurevich

Daniil
chrf++ кажется весьма устаревшей штукой, а COMET-2...

имхо эти метрики про разное, и поэтому не исключают друг друга. chrf++ про лексическое сходство (также как и блю), а comet про семантику (а следовательно требует модели для нужного языка, или корпус для обучения этой модели)

0

01.09.2023

Kate Sinkova

᠌Vladimir Gurevich
да, а там годится обычный seq2seq training pipelin...

Благодарю! По метрике. У меня тексты грамматически и орфографически правильные и важна точность перевода терминов, поэтому кажется, что семантические метрики это не мой случай

0

01.09.2023

Kate Sinkova

᠌Vladimir Gurevich
да, а там годится обычный seq2seq training pipelin...

и еще вопрос: стоит ли для дообучения рассматривать фреймворк https://opennmt.net/ ?

0

01.09.2023

Ilya Gusev

Kate Sinkova
и еще вопрос: стоит ли для дообучения рассматриват...

вполне, но я бы в сторону fairseq смотрел, он банально более популярен и лучше поддерживается

0

01.09.2023

David Dalé · Accepted Answer

David Dalé

Дообучал m2m100 и NLLB, работало нормально на тех направлениях перевода на которых дообучал, остальные подзабывались.

0

31.08.2023

170 похожих чатов

Коллеги, всем привет ) кто-нибудь дообучивал сети для машинного перевода собственными

11 ответов

Похожие вопросы