8 утра не понятно, сразу после перезагрузки кластера - ла держится на уровне 8-12 и так ровно до следующего утра. Написал мини-скриптик, посмотрел на запросы в очереди в это время - только MERGE_PARTS, может есть методы по переносу времени мержей или ускорение выполнения этих мержей?
все это абстрактно, нужна конкретика. Как вставляете? Optimize запускаете? TTL? Мутации?
через jaeger-ingester, TTL 14 дней, оптимайз не запускаю, в system.mutations пусто, данных в сумме всего около 2тб на двух машинах
ttl_only_drop_parts включили?
попробую, спасибо.
После включения настройки очередь разгребается равномернее, но нагрузка на хосты всё ещё огромная, может кто-нибудь ещё сталкивался с запредельным LA ?
запредельный LA с чем связан? с диском (iowait высокий) или CPU? метрики сервера можете посмотреть? htop хотя бы какой нибудь
c cpu, конечно, даже в разрезе 10минут по логам atop'a
https://kb.altinity.com/altinity-kb-setup-and-maintenance/altinity-kb-threads/#stack-traces-of-the-working-threads-from-the-pools попробуйте стектрейсы снять и расшарить
а что по rps у вас? может много запросов шлётся?
https://pastila.nl/?0121c79b/fefe2197c5dff3bf45ab17bdcfe9da09 Это стактрейс на текущий момент, когда нагрузки уже нет в связи с перезагрузкой кластера
на к/c это Тысяч в секунду ? или квери в секунду?
в среднем около 40тысяч в секунду
=) а сколько ядер? ;) это на один сервер?
на 2 сервера, по 12 цпу
а как rps меряете?
друг, это не RPS (requests per seconds) это даже не clickhouse это сколько ты в кафку сообщений загнал одно сообщение одна или несколько строк, в зависимости от формата
Обсуждают сегодня