у моделей ?
Методов несколько от банального дообучения на бОльшем контексте до интрополяции эмбеддингов. Вот интересная статья по последнему способу + есть связанная статья от Меты https://kaiokendev.github.io/til#extending-context-to-8k
Технически можно просто налепить обычных аттеншенов, но там проблема что сложность вычислений квадратично растёт, а железок не бесконечно Поэтому придумывают хаки Например bigbird Когда считает аттеншн не по всем для всех А по соседним, крайним и рандомным токенам
Обсуждают сегодня