хосты кубера не видели друг друга часов 10, на одном из мастеров перестал работать flannel.
До этого кластер проработал 2 месяца без проблем. Кластер три мастера, три воркера, два ингресса. Ставился кубспреем.
Не могу понять в чём дело. Сам сервер стартует, containerd запускается, api-server, controller-manager, scheduler, nodelocaldns, запускаются. Под с flannel стартует без ошибок.
По kubectl get node этот мастер в статусе ready, api-server на этой ноде доступен. C etcd всё в порядке.
При этом на этом мастере не поднимается cni0 интерфейс, и соответственно не поднимаются veth интерфейсы.
Интерфейс nodelocaldns создаётся.
В логах нашёл только пару ошибок
Nov 1 23:54:53 mstr001 containerd[1194]: time="2021-11-01T23:54:53.427362636+06:00" level=error msg="failed to reload cni configuration after receiving fs change event(\"/etc/cni/net.d/10-flannel.conflist\": REMOVE)" error="cni config load failed: no network config found in /etc/cni/net.d: cni plugin not initialized: failed to load cni config"
Nov 1 23:54:54 mstr001 systemd[1]: Couldn't stat device /dev/char/10:200: No such file or directory
Но при этом файл /etc/cni/net.d/10-flannel.conflist есть и никуда не делся.
Куда копать? У меня уже идей нет.
Ммм ну начни с того что просто сравни содержание /etc/cni Плюс покажи дескрайб ноды которая плохая
Обсуждают сегодня