Это вообще имеет смысл и даёт какой-то прирост по скорости, если также на батчах учить? Не нашел имплементации для XLMRoBerta (e5), и пока не особо углублялся в ограничения. Может, кто-то уже погружался в это?
я ещё не тестил,но прирост должен быть очень большой,особенно он должен очень меньше памяти тратить
Точно так же как и в обычном
Через optimum?
Тебе надо уйти на форк трансформеров и dot product обернуть
не обязательно делать форк чтобы изменить функционал...
Ну это проще, но может пропатчить да
Обсуждают сегодня