inductive bias вам помогает?
Я не знаю насчёт трансформера, я просто прикрутила 2d attention вместо lstm и у меня точность с 40 до 80 выросла =)
Не, именно 2d attention, свёртка там и так была
так так, с этого момента подробнее
Три слоя свётки, добавляем двумерный positional encoding, потом решейпим из NHWC в NHC и применяем обычный attention
а сколько таких слоев если не секрет?
Обсуждают сегодня