статус в NotReady каждые ~24 часа. Поддержка "изучает проблему" уже 3 недели, пингую их, новости не сообщают. Кто то сталкивался?
k describe node
https://gist.github.com/nnqq/91f939efa94a92a3c6ba89b9a374739e
UPD: нода умирает из за тысяч chrome процессов, но без родительского, создаваемых pupetter, возможно из за того что после убийства по OOM сервис не вырубает пупеттер корректно и остаются фантомные процессы хрома
а в евентах причины то какие пишет? Просто с kubelet связь пропадает?
я отредактировал gist, копипастнул весь describe, из странного вот: Conditions: Ready False Sun, 11 Apr 2021 22:26:27 +0300 Sun, 11 Apr 2021 22:01:22 +0300 KubeletNotReady [container runtime is down, PLEG is not healthy: pleg was last seen active 25m35.233938732s ago; threshold is 3m0s] Events: Warning ContainerGCFailed 41s (x25 over 24m) kubelet, pool-dma3v2ly6-8fvqk rpc error: code = Unavailable desc = connection error: desc = "transport: Error while dialing dial unix /run/containerd/containerd.sock: connect: connection refused"
В managed решениях, самый простой способ взять новую ноду и дропнуть эту. Печальное что-то там на ней происходит /run/containerd/containerd.sock: connect: connection refused
решение с пересозданием ноды то работает, но руками это делать каждый день уже надоело
а там ноды же под вашим управлением? Может ресурсов не хватает так, что containerd отваливается? На ноду захоидили смотрели что там в целом по логам как себя чувствует?
воркер да, мастер у них, у меня его даже в списке нет по панели никогда более 30% CPU и 40% оперативы не поднимается задеплоены хобби проекты с 1 rps
Обсуждают сегодня