170 похожих чатов

А расскажите про attention_mask Суть проблемы: я вроде понимаю зачем она

нужна, и на заре transformers писал сам умные паддинги батчей, она прекрасно описана в документации...

А потом наступил какой-то вжух-момент и она не используется. Не считаем loss для PAD токенов и всё работает.

Что я упускаю?

2 ответов

32 просмотра

да вроде чтобы не заглядывать вперёд, если не ошибаюсь. все что выше диагонали убирается.

PuffOfSmoke- Автор вопроса
Andrey
да вроде чтобы не заглядывать вперёд, если не ошиб...

Переформулирую. Токенайзер из transformers нам её наверняка отдаст (скрыв ей паддинг), но использовать её мы наверняка не будем

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта