какие варианты есть? Чем отличаются? Какой вариант именно мне подходит?
Мне в этих вариантах не нравится то, что они как бы с нуля писать. А по ощущению, это абсолютно стандартная для многих задача и должны быть фреймворки и подходы готовые.
Задача стандартная, исходная точка у всех разная
Не читали? https://pytorch.org/tutorials/intermediate/torchserve_with_ipex.html https://pytorch.org/tutorials/intermediate/torchserve_with_ipex_2.html А так же фреймворк: https://github.com/pytorch/serve
Transformers модели максимально эффективно деплоить на CPU, чтобы все ресурсы использовались максимально - кажется, что очень стандартно должно быть.
Да, спасибо, наверное, это оно. И возможно будет какой-то performance gain по сравнению с FastAPI...
А по умолчанию примеры с onnxruntime.ai с вашей моделью не грузят нормально все ядра?
Я проверю. Было ощущение, что не грузят, но лучше сначала проверить, может, оно и из коробки работает.
Обсуждают сегодня