https://www.tensorflow.org/text/tutorials/nmt_with_attention?hl=ru
https://github.com/jessevig/bertviz
Вот он тоже послойно работает
Это визуализация многоголового внимания. Тот который в моей ссылке - более древний.
Здесь я так понял просто на последний слой смотрят
Там RNN. Одно внимание.
Обсуждают сегодня