тренировки префикса для трансформера взять логиты с выхода, помножить их на матрицу эмбеддинга, получив примерные входные фичи и пропустить это дело еще раз через цепочку блоков трансформера, прикрутив в конце какой-нибудь бинарный клаччификатор? Не будет ли проблема с тем что у нас градиент циклически два раза проходит через трансформер?
не ругайся. я 2/3 слов не понял.
чисто технически не будет (на торче, на других фреймворках без понятия что у них там), подобную градиент-зависимость видел в одном алгоритме, но выглядит конечно странно логиты перемножать на "матрицу эмбединга" (хотите им сделать эмбединг или где?). Зачем вам фичи из логитов, если у вас трансформер фичи из инпута дает ? Зачем двойной проход ? Вам нужны фичи, берите фичи, сделайте максимум вторую голову с бинарным классификатором если одной не хватает (берете фичи, пропускаете еще через сотню трансформеров, бинарите). Полно архитектур, но раз в появляется кто-то кто мутит что-то новенькое ))
Обсуждают сегодня