172 похожих чатов

Всем привет. подскажите плиз, может кто сталкивался есть АКС кластер с

ГПУ нодами, 7 штук. предполагается иметь 7 реплик аппки. но начал сталкиваться с тем что не могу апдейтнуть деплоймент по причине Insufficient nvidia.com/gpu.
пошерстил по ГХ, нашел скриптец который отдает табличку заюзанных ГПУ, у меня вот такая получается
kubectl describe nodes | tr -d '\000' | sed -n -e '/^Name/,/Roles/p' -e '/^Capacity/,/Allocatable/p' -e '/^Allocated resources/,/Events/p' | grep -e Name -e nvidia.com | perl -pe 's/\n//' | perl -pe 's/Name:/\n/g' | sed 's/nvidia.com\/gpu:\?//g' | sed '1s/^/Node Available(GPUs) Used(GPUs)/' | sed 's/$/ 0 0 0/' | awk '{print $1, $2, $3}' | column -t
Node Available(GPUs) Used(GPUs)
aks-gpunospots1-22477931-vmss000006 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss000007 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss000008 nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000d nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000h nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000i nvidia.com/gpu: 1
aks-gpunospots1-22477931-vmss00000j nvidia.com/gpu: 1
aks-nodepool1-22477931-vmss000000 0 0
aks-systemapps1-22477931-vmss000000 0 0
aks-systemapps1-22477931-vmss000001 0 0

но подов ГПУ аппки всего две штуки на данный момент и как раз последняя не может создатсья изза Insufficient nvidia.com/gpu.

kubectl -n app-prod get pods
NAME READY STATUS RESTARTS AGE
app-7f4dccb955-l27qf 0/1 ContainerCreating 0 4m30s
app-7f5b84686f-6q5rs 1/1 Running 1 3d21h

смотрю в целом кто висит на гпу нодах - кроме самой аппки там соответсвенно. всякие пром экспортеры, гпу экспортеры, файлбит ( я предполагаю что они цпу юзают но может я не знаю чего )

вот и вопрос возник, кто конкретно юзает ГПУ и как можно найти виновника и уничтожить)))

9 ответов

25 просмотров

dcgm-exporter есть, можете еще получить ямлы всех подов с ноды и грепнуть, у кого есть nvidia.com/gpu

Oleg-Makarov Автор вопроса
Sergei Monakhov
dcgm-exporter есть, можете еще получить ямлы всех ...

dcgm у меня крутился вроде, сча гляну спасибо

Oleg Makarov
dcgm у меня крутился вроде, сча гляну спасибо

возьмите там метрику по утилизации, если он у вас последний, они там вкорячили в лейблы поды и неймспейсы, ну или не очень послений, не помню давно уже добавили в общем

Oleg-Makarov Автор вопроса
Sergei Monakhov
возьмите там метрику по утилизации, если он у вас ...

я вижу что сам экспортер его юзает DCGM_FI_DEV_SM_CLOCK{UUID="GPU-8ee74b00-dcbd-f27e-e183-faf900658ee9", container="dcgm-exporter", device="nvidia0", endpoint="metrics", gpu="0", instance="10.141.1.49:9400", job="dcgm-exporter", namespace="gpu-resources", pod="dcgm-exporter-jgskx", service="dcgm-exporter"} и таких несколько реплик

Oleg-Makarov Автор вопроса
Sergei Monakhov
ему как бы не надо карту юзать

какая то дичь я даже дропнул даемонсет dgcm но все равно гпу заняты а если просто ямлики смотреть подов, там не написано типа какие ресы алокейтит под ( или я не туда гляжу)

Oleg Makarov
какая то дичь я даже дропнул даемонсет dgcm но все...

дайте дескрайб по ноде с гпу, точнее нужны Capacity и Allocatable

Oleg-Makarov Автор вопроса
Sergei Monakhov
дайте дескрайб по ноде с гпу, точнее нужны Capacit...

Capacity: attachable-volumes-azure-disk: 8 cpu: 4 ephemeral-storage: 50633164Ki hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 28759348Ki nvidia.com/gpu: 1 pods: 10 Allocatable: attachable-volumes-azure-disk: 8 cpu: 3860m ephemeral-storage: 46663523866 hugepages-1Gi: 0 hugepages-2Mi: 0 memory: 24510772Ki nvidia.com/gpu: 1 pods: 10

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта