нужна, и на заре transformers писал сам умные паддинги батчей, она прекрасно описана в документации...
А потом наступил какой-то вжух-момент и она не используется. Не считаем loss для PAD токенов и всё работает.
Что я упускаю?
да вроде чтобы не заглядывать вперёд, если не ошибаюсь. все что выше диагонали убирается.
Переформулирую. Токенайзер из transformers нам её наверняка отдаст (скрыв ей паддинг), но использовать её мы наверняка не будем
Обсуждают сегодня