Похожие чаты

А зачем вы пихаете трансформеры во все подряд? как их

inductive bias вам помогает?

7 ответов

7 просмотров

Я не знаю насчёт трансформера, я просто прикрутила 2d attention вместо lstm и у меня точность с 40 до 80 выросла =)

Vadim Chashechnikov
Свертку?

Не, именно 2d attention, свёртка там и так была

mik
так так, с этого момента подробнее

Три слоя свётки, добавляем двумерный positional encoding, потом решейпим из NHWC в NHC и применяем обычный attention

Похожие вопросы

Карта сайта