Передо мной стоит задача обращения к модели, которая работает только на GPU (трансформер, работа с текстом), но постоянно держать поднятым инстанс очень не хочется. Есть ли у AWS какая-то опция для того, чтобы обрабатывать запросы только при обращении, в смысле, вести расчёты и тратить деньги?
ну вот только это пока есть - https://aws.amazon.com/ru/machine-learning/elastic-inference/ не совсем то что вам надо, понимаю, но чем богаты...
Для GPU нет. Можно попробовать сильно снизить стоимость 24*7 за счёт использования spot и elastic inference
Обсуждают сегодня