172 похожих чатов

Всем привет. подскажите плиз, может кто сталкивался есть АКС кластер с

ГПУ нодами, 7 штук. предполагается иметь 7 реплик аппки. но начал сталкиваться с тем что не могу апдейтнуть деплоймент по причине Insufficient nvidia.com/gpu.
пошерстил по ГХ, нашел скриптец который отдает табличку заюзанных ГПУ, у меня вот такая получается
kubectl describe nodes | tr -d '\000' | sed -n -e '/^Name/,/Roles/p' -e '/^Capacity/,/Allocatable/p' -e '/^Allocated resources/,/Events/p' | grep -e Name -e nvidia.com | perl -pe 's/\n//' | perl -pe 's/Name:/\n/g' | sed 's/nvidia.com\/gpu:\?//g' | sed '1s/^/Node Available(GPUs) Used(GPUs)/' | sed 's/$/ 0 0 0/' | awk '{print $1, $2, $3}' | column -t
Node Available(GPUs) Used(GPUs)
aks-gpunospots1-22477931-vmss000006 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss000007 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss000008 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000d nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000h nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000i nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000j nvidia.com/gpu: 1
aks-nodepool1-22477931-vmss000000 0 0
aks-systemapps1-22477931-vmss000000 0 0
aks-systemapps1-22477931-vmss000001 0 0

но подов ГПУ аппки всего две штуки на данный момент и как раз последняя не может создатсья изза Insufficient nvidia.com/gpu.

kubectl -n app-prod get pods
NAME READY STATUS RESTARTS AGE
app-7f4dccb955-l27qf 0/1 ContainerCreating 0 4m30s
app-7f5b84686f-6q5rs 1/1 Running 1 3d21h

смотрю в целом кто висит на гпу нодах - кроме самой аппки там соответсвенно. всякие пром экспортеры, гпу экспортеры, файлбит ( я предполагаю что они цпу юзают но может я не знаю чего )

вот и вопрос возник, кто конкретно юзает ГПУ и как можно найти виновника и уничтожить)))

9 ответов

10 просмотров

dcgm-exporter есть, можете еще получить ямлы всех подов с ноды и грепнуть, у кого есть nvidia.com/gpu

Oleg-Makarov Автор вопроса
Sergei Monakhov
dcgm-exporter есть, можете еще получить ямлы всех ...

dcgm у меня крутился вроде, сча гляну спасибо

Oleg Makarov
dcgm у меня крутился вроде, сча гляну спасибо

возьмите там метрику по утилизации, если он у вас последний, они там вкорячили в лейблы поды и неймспейсы, ну или не очень послений, не помню давно уже добавили в общем

Oleg-Makarov Автор вопроса
Sergei Monakhov
возьмите там метрику по утилизации, если он у вас ...

я вижу что сам экспортер его юзает DCGM_FI_DEV_SM_CLOCK{UUID="GPU-8ee74b00-dcbd-f27e-e183-faf900658ee9", container="dcgm-exporter", device="nvidia0", endpoint="metrics", gpu="0", instance="10.141.1.49:9400", job="dcgm-exporter", namespace="gpu-resources", pod="dcgm-exporter-jgskx", service="dcgm-exporter"} и таких несколько реплик

Oleg-Makarov Автор вопроса
Sergei Monakhov
ему как бы не надо карту юзать

какая то дичь я даже дропнул даемонсет dgcm но все равно гпу заняты а если просто ямлики смотреть подов, там не написано типа какие ресы алокейтит под ( или я не туда гляжу)

Oleg Makarov
какая то дичь я даже дропнул даемонсет dgcm но все...

дайте дескрайб по ноде с гпу, точнее нужны Capacity и Allocatable

Oleg-Makarov Автор вопроса
Sergei Monakhov
дайте дескрайб по ноде с гпу, точнее нужны Capacit...

Capacity: attachable-volumes-azure-disk: 8 cpu: 4 ephemeral-storage: 50633164Ki hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 28759348Ki nvidia.com/gpu: 1 pods: 10 Allocatable: attachable-volumes-azure-disk: 8 cpu: 3860m ephemeral-storage: 46663523866 hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 24510772Ki nvidia.com/gpu: 1 pods: 10

Похожие вопросы

Обсуждают сегодня

Какой-то там пердун в 90-х решил, что есть какая-то разная типизация. Кого вообще это волнует?
КТ315
49
void terminal_scroll() { memmove(terminal_buffer, terminal_buffer + VGA_WIDTH, buffer_size - VGA_WIDTH); memset(terminal_buffer + buffer_size - VGA_WIDTH, 0, VGA_WIDTH); ...
Егор
47
Всем привет! Подскажите, пожалуйста, в чем ошибка? Настраиваю подключение к MySQL. Либы лежат рядом с exe. Все как по "учебнику"
Евгений
16
А можете как-то проверить меня по знаниям по ассемблеру?
A A
132
Здравствуйте! У меня появилась возможность купить книгу "Изучай Haskell во имя добра!". Но я где-то слышал, что эта книга устарела. Насколько это правда??
E
22
Здравствуйте! Я вот на stepic решаю задачи на хаскеле https://stepik.org/lesson/8443/step/8?unit=1578 мой код import Data.List (isInfixOf) removing :: String -> [String] ->...
E
10
Камрады, кто тесно работал с vtv, хотел уточнить. Ширина column задаётся жёстко на этапе создания дерева или можно в рантайме ее менять программно (не мышкой)?
Ed Doc
10
да ладно ... что там неочевидного ? глянуть в исх-ки датасета и/или кверика чтобы понять в каком месте и как выполняется обращения к св-вам blablaSQL - минутное дело, даже е...
Сергей
7
Здесь для arm кто-нибудь кодит ?
Nothing
52
Всем привет, у меня есть сервер принимающий входящие HTTP подключения, как проверить, что подключение было через прокси или нет, есть какие то поля в заголовках по которым мо...
Кибер Бомж
8
Карта сайта