ГПУ нодами, 7 штук. предполагается иметь 7 реплик аппки. но начал сталкиваться с тем что не могу апдейтнуть деплоймент по причине Insufficient nvidia.com/gpu.
пошерстил по ГХ, нашел скриптец который отдает табличку заюзанных ГПУ, у меня вот такая получается
kubectl describe nodes | tr -d '\000' | sed -n -e '/^Name/,/Roles/p' -e '/^Capacity/,/Allocatable/p' -e '/^Allocated resources/,/Events/p' | grep -e Name -e nvidia.com | perl -pe 's/\n//' | perl -pe 's/Name:/\n/g' | sed 's/nvidia.com\/gpu:\?//g' | sed '1s/^/Node Available(GPUs) Used(GPUs)/' | sed 's/$/ 0 0 0/' | awk '{print $1, $2, $3}' | column -t
Node Available(GPUs) Used(GPUs)
aks-gpunospots1-22477931-vmss000006 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss000007 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss000008 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000d nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000h nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000i nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000j nvidia.com/gpu: 1
aks-nodepool1-22477931-vmss000000 0 0
aks-systemapps1-22477931-vmss000000 0 0
aks-systemapps1-22477931-vmss000001 0 0
но подов ГПУ аппки всего две штуки на данный момент и как раз последняя не может создатсья изза Insufficient nvidia.com/gpu.
kubectl -n app-prod get pods
NAME READY STATUS RESTARTS AGE
app-7f4dccb955-l27qf 0/1 ContainerCreating 0 4m30s
app-7f5b84686f-6q5rs 1/1 Running 1 3d21h
смотрю в целом кто висит на гпу нодах - кроме самой аппки там соответсвенно. всякие пром экспортеры, гпу экспортеры, файлбит ( я предполагаю что они цпу юзают но может я не знаю чего )
вот и вопрос возник, кто конкретно юзает ГПУ и как можно найти виновника и уничтожить)))
dcgm-exporter есть, можете еще получить ямлы всех подов с ноды и грепнуть, у кого есть nvidia.com/gpu
dcgm у меня крутился вроде, сча гляну спасибо
возьмите там метрику по утилизации, если он у вас последний, они там вкорячили в лейблы поды и неймспейсы, ну или не очень послений, не помню давно уже добавили в общем
я вижу что сам экспортер его юзает DCGM_FI_DEV_SM_CLOCK{UUID="GPU-8ee74b00-dcbd-f27e-e183-faf900658ee9", container="dcgm-exporter", device="nvidia0", endpoint="metrics", gpu="0", instance="10.141.1.49:9400", job="dcgm-exporter", namespace="gpu-resources", pod="dcgm-exporter-jgskx", service="dcgm-exporter"} и таких несколько реплик
ему как бы не надо карту юзать
какая то дичь я даже дропнул даемонсет dgcm но все равно гпу заняты а если просто ямлики смотреть подов, там не написано типа какие ресы алокейтит под ( или я не туда гляжу)
дайте дескрайб по ноде с гпу, точнее нужны Capacity и Allocatable
Capacity: attachable-volumes-azure-disk: 8 cpu: 4 ephemeral-storage: 50633164Ki hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 28759348Ki nvidia.com/gpu: 1 pods: 10 Allocatable: attachable-volumes-azure-disk: 8 cpu: 3860m ephemeral-storage: 46663523866 hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 24510772Ki nvidia.com/gpu: 1 pods: 10
а как вы поды смотрели?
Обсуждают сегодня