(например, в 40 клиентов какие-то запросы кидаются), кликхаус начинает есть ~0 CPU и все запросы просто зависают и потом отваливаются по таймауту, клиентом тоже не подключиться. При этом вроде как процесс не стопается (иначе бы перезагрузился под). Спасает только ручная перезагрузка. Подскажите, пожалуйста, куда можно посмотреть, какие настройки поменять?
В логах вроде как ничего сверхъестественного нет. На скрине пример просадки CPU, после ребута все возвращается в норму.
вообще такое в гитхаб надо спрашивать но https://kb.altinity.com/altinity-kb-useful-queries/debug-hang/
limits / requests на pod стоят по CPU? если в limits упираетесь, тогда будет тротлинг
как clickhouse в кубах развернут? через clickhouse-operator ? или какой то кастомный helm chart а-ля bitnami?
Через helm чарт, но не уверен чей. Стейтфул сет выглядит вот так: https://gist.github.com/tvorogme/042954f5ecb7e24c930e40667aefc58f
поставьте 90%
А так падает
логи контейнера есть? что падает с каким сообщением? или просто pod в Pending переходит?
Логи могу сдампить, сек. Нет, под Running, но никак не подключиться к кх. Даже если захожу в контейнер и использую clickhouse-client. Падает с timeout
а wget http://127.0.0.1:8123/ping внутри контейнера с clickhouse что показывает?
root@clickhouse-0:/# cat ping Ok.
Вот это спасает, т.е. действительно после запуска нагрузки оно отрабатывает и не скатывается в это странное состояние (вроде как, я заметил это совсем недавно)
for i in $(ls -1 /proc/$(pidof clickhouse-server)/task/); do kill -TSTP $i; done
Не помогает ^Croot@clickhouse-0:/# for i in $(ls -1 /proc/$(pidof clickhouse-server)/task/); do kill -TSTP $i; done root@clickhouse-0:/# clickhouse-client -u ... --password "...." ClickHouse client version 23.10.1.1976 (official build). Connecting to localhost:9000 as user mega. Connected to ClickHouse server version 23.10.1 revision 54466.
в логе КХ что-то остается?
а сервер один? или воспроизводится? я бы проверил что в 23.8.5
Сервер один, я как раз обновил КХ до 23.10, чтобы проверить, с 23.8 там было так же
так у вас есть похоже инфа в system.trace_log
Обсуждают сегодня