170 похожих чатов

Добрый день! А может кто-нибудь в кратце объяснить разницу обычного

berta, berta для предложений и лонгформера?

3 ответов

14 просмотров

Не шарю глубоко в теме, но основное отличие в том, что берт может принимать на вход только очень ограниченную последовательность токенов (обычно 512), поэтому для обработки последовательностей длиннее нужны всякие костыли типа sliding windows (название говорит за себя, я думаю). Longformer почти ничем не отличается, только он принимает на вход последовательности 4096 токенов и больше (до 16К токенов за раз, есть и такие модели). Для некоторых задач берт оказывается слишком тяжелым, например, для разрешения кореферентности нужно держать в ОЗУ репрезентации всех возможных спэнов документа и сравнивать все возможные пары спэнов, то есть в квадрате и в четвертой степени, как на картинке) Лонгформер для кореферентности позволяет использовать в 3-4 раза меньше памяти при обучении и инференсе, при этом точность та же, что с обычным бертом.

Теперь их можно просто from transformers import LongformerModel model = LongformerModel.from_pretrained('ruRoberta-large-4096', gradient_checkpointing=True)

Вячеслав-Шеркунов Автор вопроса
Gleb Gutnik
Не шарю глубоко в теме, но основное отличие в том,...

Спасибо большое, потестим этот лонгформер👍

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта