Я не специалист, но, кажется, дообучение таких больших моделей требует сумасшедшего объема видеопамяти Для обучения берта используют до 20 карточек типа gp100, кажется Gpt3 эт...
Всем привет! Вероятно, довольно глупый вопрос :) Как в последовательности токенов, закодированных бертом, только те, которые "участвуют" в self-attention на 3 голове 4 слоя? С...
Всем привет! Собираюсь конвертировать roberta для русского в longformer-4096 по скриптам AllenAI — может быть, кому-то здесь уже доводилось обучать русский longformer?
Есть колаб, в котором я обычно запускаю инференс, но он очень уродливый и основан на файлах моего гугл-диска. Если заинтересует, могу дописать его для стороннего использования...
Привет всем, существует ли трансформер SpanBERT для русского языка? Собираюсь тренировать его на вики, но может есть уже готовый…