на курсе по NLP мы говорили, что просто конкатенировать эмбеддинги текста и пихать их в полносвязную сетку — это тупо и не работает? И что лучше использовать RNN/Трансфрмеры.
В общем это не совсем так. Если сделать полносвязную сетку из 16 слоёв с layer norm, dropout и skip connections, то на коротких контекстах (<20 токенов) она работает сопоставимо с трансформерами на языковом моделировании 🤯
Кажется, мне нужно будет переделать пару слайдов...
Фигасе
Обсуждают сегодня