Если интересуют трансформеры, можно взять мою rubbery-tiny или rubert-tiny2 и экспортировать в onnx или что-нибудь подобное. Если хочется что-то ещё более компактное, чем трансформеры, рекомендую обучить маленький классификатор fasttext. Если у вас нет своих данных для обучения, можно взять датасет MASSIVE от Амазон Алексы; там несколько десятков языков, включая русский.
Спасибо, посмотрю как это сделать.
Берт / Т5 базовых хватит, а дальше чекпоинт от языка и задачи смотришь банально даже по фильтру задач hugging face
Обсуждают сегодня