данными?
например
rut5-base-multitask
Helsinki-NLP/opus-mt-mul-en
facebook/nllb-200-distilled-600M
какие могут быть нюансы?
какие есть результаты?
Дообучал m2m100 и NLLB, работало нормально на тех направлениях перевода на которых дообучал, остальные подзабывались.
Давид, а какую метрику вы использовали, чтобы сравнить перевод из коробки и после файн-тюнинга? Как вы определили, что "работало нормально"?)
Тоже в ближайшее время планирую решать эту задачу со своим датасетом. Посоветуйте, пжлст, что полезного почитать? Опыта пока нет. Я так понимаю, нужно изучить туториалы по файн-тюнингу произвольной sec2sec модели
увидел, спасибо )
ChrF++ (аналог BLEU, но чуть менее чувствительный к написанию слов и иначе отмасштабированный), плюс просто глазками смотрел небольшую выборку переводов на предмет разных косяков.
chrf++ кажется весьма устаревшей штукой, а COMET-20 (21/22) не пробовал?
да, а там годится обычный seq2seq training pipeline на базе библиотеки трансформеров можно туториалы или примеры в гитхабчике также найти, посмотреть, как например - https://github.com/masakhane-io/lafand-mt/blob/main/lafand.ipynb
имхо эти метрики про разное, и поэтому не исключают друг друга. chrf++ про лексическое сходство (также как и блю), а comet про семантику (а следовательно требует модели для нужного языка, или корпус для обучения этой модели)
Благодарю! По метрике. У меня тексты грамматически и орфографически правильные и важна точность перевода терминов, поэтому кажется, что семантические метрики это не мой случай
и еще вопрос: стоит ли для дообучения рассматривать фреймворк https://opennmt.net/ ?
вполне, но я бы в сторону fairseq смотрел, он банально более популярен и лучше поддерживается
Обсуждают сегодня