англ-другие языки? Потому как судя по всему LLAMA 2 годная история, но только на английском
NLLB - SOTA по переводу
какой нибудь линк не подскажете где искать?
https://huggingface.co/facebook/nllb-200-3.3B
Кстати вопрос по NLLB. Его надо кормить целыми абзацами, или отдельными предложениями? (а то он как-то вольно относится к абзацам,может выкинуть отдельные предложения. и с предложениями тоже бывают косяки — бывает выдаёт зацикленное)
Если используете из коробки, то отдельными предложениями, ибо обучалась эта модель исключительно на единичных предложениях. Наверное, можно ее так пофайнтюнить, чтобы и на небольших абзацах работала, но я не пробовал.
Пасиб. Интуитивно кажется,что лучше бы абзацами — ну чтоб ей было за мыслью проще следить. Но раз так не учили, то понятно.
Кстати,а чем бы побить на предложения, плюс-минус языконезависимо? Пробовал ersatz, он в англ неплох, но в русском слабоват.
Авторы самой NLLB использовали вот такой языкозависимый скрипт с выбором своего специфичного сплиттера для кучи языков. https://github.com/facebookresearch/stopes/blob/main/stopes/pipelines/monolingual/utils/sentence_split.py
Обсуждают сегодня