нескольких секунд
а за ними уже и взлетают:
Total Time Produce Latency 99th
Total Time FetchFollower Latency 99th
Вот такая картина репина в кластере, путем долгих опытов выяснилось что такое "творит" один из продьюсеров(на php rdkafka если важно).
При этом RPS смешной, порядка 500-700 на 4-х нодовом кластере(8 cpu, 32 gb ram, 4 gb heap).
Ничего жирного не суется, обычные логи приложений, смотрел размер пачки и на первый взгляд размер не больше 10-20кб.
Пока не могу выяснить причину, а в логах кафки ничего вразумительного до того момента пока latency не подскочит до 30 сек, тогда кластер просто разваливается.
Может кто сталкивался с похожим поведением?
Больше на сеть похоже . 1000 RPS можно из СУБД в СУБД напрямую гонять ,никто и не заметит
Не, точно не сеть, поднял еще один кластер один в один и перевел туда "проблемного" продьюсера, он и тестовую так же вальнул. Плюс по метрикам node-exporter все отлично, ни ошибок ни трафика по сети и диски даже на 10 иопс не загружены...
Очень странное поведение
Вот и я не могу понять куда копать... отличие в продьюсерах только одно: "проблемный" php с модулем rdkafka, остальные все через fluent-bit...
Обсуждают сегодня