в Kubernetes?
Нужно собрать хотя бы использование памяти и загрузку GPU. Желательно инструмент на 4уровне самого kubernetes, чтобы можно было мониторить любой под. pod работают с видеокартами NVIDIA и соотв. плагинами для доступа к GPU.
пробовали - https://github.com/NVIDIA/dcgm-exporter?
У нас стоит, но container и pod поля пустые выдаются.
а вы доступ к сокету kubelet ему дали? И к папке pod-resources? Судя по коду https://github.com/NVIDIA/dcgm-exporter/blob/30a188b53f084d1f9ff4fedc913eeaf5107e8be2/pkg/dcgmexporter/kubernetes.go#L34 он должен от туда их доставать (имею в виду имена подов и контейнеров)
Возможно что нет. Тогда посмотрю более подробно. Спасибо за наводку.
Обсуждают сегодня