172 похожих чатов

При выполнении scale для одного из сервисов из одной реплики

до 2-3шт., появляется периодически ошибка: "Liveness probe failed: HTTP probe failed with statuscode: 500"
Иногда реплики добавляются без проблем, но через какое-то время могут перезапускаться. При этом в stage этот же манефест работает без ошибок и отлично скейлится.
AWS EKS 1.20, istio.
Какой алгоритм мог бы быть для поиска/решения проблемы ?

7 ответов

14 просмотров

у вас все с одного кода или руками налеплено?

Name-Lastname Автор вопроса
4c74356b41
у вас все с одного кода или руками налеплено?

Да, все из одного кода (один yaml для всех реплик и env) для этого сервиса.

Name-Lastname Автор вопроса
4c74356b41
я про куб

да, все из кода (через eksctl + helm)

Name Lastname
да, все из кода (через eksctl + helm)

ну тогда мало идей, собирайте дебаг логи какие-то, можа трейсы соберите на нодах.

Name-Lastname Автор вопроса
4c74356b41
ну тогда мало идей, собирайте дебаг логи какие-то,...

Спасибо, логи все, какие только можно, изучены - ничего связанного с этой проблемой в них не удается найти. Может поделитесь какими-то ссылками по поиску/решению таких проблем или буду также благодарен за любые мысли, т.к. проблема носит случайный характер и тяжело определить причинные связи, но это один из ключевых сервисов кластера и его падение/перезагрузка абсолютно критична всегда.

Name Lastname
Спасибо, логи все, какие только можно, изучены - н...

можа прилепите ему приоритет максимальный

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта