параметры обучаемые? Типа при инициализации это случайные плотные вектора для каждого токена в словаре и в процессе обучения сетка их апдейтит?
Могут быть как обучаемые, так и предобученные
Почти всегда именно так: случайно инициализированные обучаемые плотные вектора (иногда - инициализированные из какого-нибудь другого трансформера или из модели попроще типа fasttext)
Обсуждают сегодня