до 2-3шт., появляется периодически ошибка: "Liveness probe failed: HTTP probe failed with statuscode: 500"
Иногда реплики добавляются без проблем, но через какое-то время могут перезапускаться. При этом в stage этот же манефест работает без ошибок и отлично скейлится.
AWS EKS 1.20, istio.
Какой алгоритм мог бы быть для поиска/решения проблемы ?
у вас все с одного кода или руками налеплено?
Да, все из одного кода (один yaml для всех реплик и env) для этого сервиса.
да, все из кода (через eksctl + helm)
ну тогда мало идей, собирайте дебаг логи какие-то, можа трейсы соберите на нодах.
Спасибо, логи все, какие только можно, изучены - ничего связанного с этой проблемой в них не удается найти. Может поделитесь какими-то ссылками по поиску/решению таких проблем или буду также благодарен за любые мысли, т.к. проблема носит случайный характер и тяжело определить причинные связи, но это один из ключевых сервисов кластера и его падение/перезагрузка абсолютно критична всегда.
можа прилепите ему приоритет максимальный
Обсуждают сегодня