датасетом, итеративным как-нибудь..?
Какие инструменты есть для токенизации, где достать предобученные эмбединги?
Про токенизацию - https://github.com/huggingface/tokenizers , nltk Эмбеддинги - зависит от языка. Если ру, то есть на rusvectores
Обсуждают сегодня