работать с тензорами 2+ ранга? А не только одномерными
они почти все работают с размерностью [batch_size, seq_len, n_emb], что вы имеете ввиду под 2+ ранга?
свёртки же
ну это уже инструменты, взятые с CNN. Мне бы хотелось более типичные из NLP
свёртки вполне типичны для дотрансформерного NLP
и все же, возможно есть какие-то ещё варианты?
ну есть X + свёртки
Обсуждают сегодня