Приветствую камрады, спасайте советом! Периодически взлетают: Total Time Produce Latency 99th до

Question

Приветствую камрады, спасайте советом! Периодически взлетают: Total Time Produce Latency 99th до

нескольких секунд
а за ними уже и взлетают:
Total Time Produce Latency 99th
Total Time FetchFollower Latency 99th

Вот такая картина репина в кластере, путем долгих опытов выяснилось что такое "творит" один из продьюсеров(на php rdkafka если важно).
При этом RPS смешной, порядка 500-700 на 4-х нодовом кластере(8 cpu, 32 gb ram, 4 gb heap).
Ничего жирного не суется, обычные логи приложений, смотрел размер пачки и на первый взгляд размер не больше 10-20кб.
Пока не могу выяснить причину, а в логах кафки ничего вразумительного до того момента пока latency не подскочит до 30 сек, тогда кластер просто разваливается.
Может кто сталкивался с похожим поведением?

#kafka #russian #software

0

28.10.2021

4 ответов

56 просмотров

Zillah Giovanni Автор вопроса

Mikhail
Больше на сеть похоже . 1000 RPS можно из СУБД в С...

Не, точно не сеть, поднял еще один кластер один в один и перевел туда "проблемного" продьюсера, он и тестовую так же вальнул. Плюс по метрикам node-exporter все отлично, ни ошибок ни трафика по сети и диски даже на 10 иопс не загружены...

0

28.10.2021

Solyar

Очень странное поведение

0

28.10.2021

Zillah Giovanni Автор вопроса

Solyar
Очень странное поведение

Вот и я не могу понять куда копать... отличие в продьюсерах только одно: "проблемный" php с модулем rdkafka, остальные все через fluent-bit...

0

28.10.2021