токенов, закодированных бертом, только те, которые "участвуют" в self-attention на 3 голове 4 слоя? Судя по графикам bertviz, в этом месте веса дают очень интересные зависимости. Пытаюсь понять, в каком месте весов self-attention искать информацию о том, что "he" относится к "his" и "john", а "it" к "car"?
Смотрите статью What Does BERT Look At? An Analysis of BERT’s Attention, там есть обобщения о том, что выучивают конкреные головы: https://arxiv.org/pdf/1906.04341.pdf
Обсуждают сегодня