Так посоветуете какую модель можно за основу взять для обучения?

Если интересуют трансформеры, можно взять мою rubbery-tiny или rubert-tiny2 и экспортировать в onnx или что-нибудь подобное. Если хочется что-то ещё более компактное, чем трансформеры, рекомендую обучить маленький классификатор fasttext. Если у вас нет своих данных для обучения, можно взять датасет MASSIVE от Амазон Алексы; там несколько десятков языков, включая русский.