ок
Поднимаю третий воркер - на нём ни в какую не работает днс, т.е. из подов не резолвится ни внешка, ни ресурсы кластера
Если редеплойнуть coredns - заводится на двух любых нодах, одна (не обязательно вновь созданная) остаётся за бортом, и на нерабочей ноде нет пода корднс
Попробовал сменить днс-автоскейлер на этот
https://github.com/kubernetes/kubernetes/blob/master/cluster/addons/dns-horizontal-autoscaler/dns-horizontal-autoscaler.yaml
Результат: корднс скейлится, на каждый ноде есть его под, но днс работает либо на двух рандомных нодах, либо на одной, теперь рабочие ноды могут стать нерабочими даже без перезапуска корднс
В логах: автоскейлера, корднс, их подов, сервиса корднс, всё чисто, никаких ошибок/варнингов
Пробовал разные версии корднс, другие ос на нодах, открыл все порты, отключил все фаерволы / селинуксы и тд
Может кто сталкивался или есть идеи, как так?
Сеть какая? Версия? Какой ранчер? Очень много неизвестных
ранчер 1.19.6, сеть - flannel, всё в амазоне на ec2
2 воркера - это помимо мастеров ?
да, 3 мастера
А на мастерах все ок, как я понимаю ?
ага с ними нет проблем
гмм а зачем core-dns прям на каждой ноде? ну и вот собственно https://kubernetes.io/docs/tasks/administer-cluster/dns-debugging-resolution/
это как догадка. Не работает на той, где его нет. По этому ману уже прошелся
core-dns достаточно двух экземпляров а вот если используется nodelocaldns, то да, они на каждой ноде должны быть
ну так и что с диагностикой? nslookup kubernetes.default
вот на рабочей ноде: /var/www/public $ nslookup kubernetes.default Server: 10.43.0.10 Address: 10.43.0.10:53 /var/www/public $ cat /etc/resolv.conf nameserver 10.43.0.10 search default.svc.cluster.local svc.cluster.local cluster.local eu-central-1.compute.internal options ndots:5 На нерабочй - таймаут
А кроме dns все работает?
да, если оставить 2 воркера - всё ок
Отсюда просто непонятно - он совсем не фурычит?
Обсуждают сегодня