Ребят, всем привет. Насколько большая разница в скорости инференса ллм между rtx 4090(V100) и A100? Сейчас на v100 запустил saiga2-13b в 4 бит и работает как-то медленно. Где...
Ребят, всем привет! Делаю retrieval QA чат-бота на внутренних данных. Есть карточка v100 на 24гб Какую русскую инстракт модельку было бы оптимально на ней использовать? Сейчас...
Чуть позже возможно смогу скинуть код тебе Кто нибудь знает, а есть смысл использовать какой-нибудь DeepSpeed для инференса? Будет быстрее?
и вообще какие сейчас есть удобные фреймворки чтобы батчить запросы для ллмок? Кто чем пользуется, признавайтесь)
то есть ты по факту учил модель генерить и вопрос и ответ?