Всем привет. подскажите плиз, может кто сталкивался есть АКС кластер с

Question

Всем привет. подскажите плиз, может кто сталкивался есть АКС кластер с

ГПУ нодами, 7 штук. предполагается иметь 7 реплик аппки. но начал сталкиваться с тем что не могу апдейтнуть деплоймент по причине Insufficient nvidia.com/gpu.
пошерстил по ГХ, нашел скриптец который отдает табличку заюзанных ГПУ, у меня вот такая получается
kubectl describe nodes | tr -d '\000' | sed -n -e '/^Name/,/Roles/p' -e '/^Capacity/,/Allocatable/p' -e '/^Allocated resources/,/Events/p' | grep -e Name -e nvidia.com | perl -pe 's/\n//' | perl -pe 's/Name:/\n/g' | sed 's/nvidia.com\/gpu:\?//g' | sed '1s/^/Node Available(GPUs) Used(GPUs)/' | sed 's/$/ 0 0 0/' | awk '{print $1, $2, $3}' | column -t
Node Available(GPUs) Used(GPUs)
aks-gpunospots1-22477931-vmss000006 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss000007 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss000008 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000d nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000h nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000i nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000j nvidia.com/gpu: 1
aks-nodepool1-22477931-vmss000000 0 0
aks-systemapps1-22477931-vmss000000 0 0
aks-systemapps1-22477931-vmss000001 0 0

но подов ГПУ аппки всего две штуки на данный момент и как раз последняя не может создатсья изза Insufficient nvidia.com/gpu.

kubectl -n app-prod get pods
NAME READY STATUS RESTARTS AGE
app-7f4dccb955-l27qf 0/1 ContainerCreating 0 4m30s
app-7f5b84686f-6q5rs 1/1 Running 1 3d21h

смотрю в целом кто висит на гпу нодах - кроме самой аппки там соответсвенно. всякие пром экспортеры, гпу экспортеры, файлбит ( я предполагаю что они цпу юзают но может я не знаю чего )

вот и вопрос возник, кто конкретно юзает ГПУ и как можно найти виновника и уничтожить)))

#devops #kubernetes #programming #russian

0

14.07.2021

9 ответов

27 просмотров

Oleg Makarov Автор вопроса

Sergei Monakhov
dcgm-exporter есть, можете еще получить ямлы всех ...

dcgm у меня крутился вроде, сча гляну спасибо

0

14.07.2021

Sergei Monakhov

Oleg Makarov
dcgm у меня крутился вроде, сча гляну спасибо

возьмите там метрику по утилизации, если он у вас последний, они там вкорячили в лейблы поды и неймспейсы, ну или не очень послений, не помню давно уже добавили в общем

0

14.07.2021

Oleg Makarov Автор вопроса

Sergei Monakhov
возьмите там метрику по утилизации, если он у вас ...

я вижу что сам экспортер его юзает DCGM_FI_DEV_SM_CLOCK{UUID="GPU-8ee74b00-dcbd-f27e-e183-faf900658ee9", container="dcgm-exporter", device="nvidia0", endpoint="metrics", gpu="0", instance="10.141.1.49:9400", job="dcgm-exporter", namespace="gpu-resources", pod="dcgm-exporter-jgskx", service="dcgm-exporter"} и таких несколько реплик

0

14.07.2021

Sergei Monakhov

Oleg Makarov
я вижу что сам экспортер его юзает DCGM_FI_DEV_SM_...

ему как бы не надо карту юзать

0

14.07.2021

Oleg Makarov Автор вопроса

Sergei Monakhov
ему как бы не надо карту юзать

какая то дичь я даже дропнул даемонсет dgcm но все равно гпу заняты а если просто ямлики смотреть подов, там не написано типа какие ресы алокейтит под ( или я не туда гляжу)

0

14.07.2021

Sergei Monakhov

Oleg Makarov
какая то дичь я даже дропнул даемонсет dgcm но все...

дайте дескрайб по ноде с гпу, точнее нужны Capacity и Allocatable

0

14.07.2021

Oleg Makarov Автор вопроса

Sergei Monakhov
дайте дескрайб по ноде с гпу, точнее нужны Capacit...

Capacity: attachable-volumes-azure-disk: 8 cpu: 4 ephemeral-storage: 50633164Ki hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 28759348Ki nvidia.com/gpu: 1 pods: 10 Allocatable: attachable-volumes-azure-disk: 8 cpu: 3860m ephemeral-storage: 46663523866 hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 24510772Ki nvidia.com/gpu: 1 pods: 10

0

14.07.2021

Sergei Monakhov

Oleg Makarov
Capacity: attachable-volumes-azure-disk: 8 cp...

а как вы поды смотрели?

0

14.07.2021

Sergei Monakhov · Accepted Answer

Sergei Monakhov

dcgm-exporter есть, можете еще получить ямлы всех подов с ноды и грепнуть, у кого есть nvidia.com/gpu

0

14.07.2021

172 похожих чатов

Всем привет. подскажите плиз, может кто сталкивался есть АКС кластер с

9 ответов

Похожие вопросы