знает, есть ли метрики на них, сколько тредов в моменте использовалось?
Есть предположение что уперлись в эти треды
по поводу сети, попробуй посмотреть вот на эту метрику https://docs.confluent.io/platform/current/kafka/monitoring.html#:~:text=kafka.network%3Atype%3DSocketServer%2Cname%3DNetworkProcessorAvgIdlePercent Про io - я бы просто на иопсы и тд глянул (каким нить node_exporter) Хотя я вот вижу всякие метрики про io kafka_server_socket_server_metrics_io_wait_time_ns_avg kafka_server_txn_marker_channel_metrics_io_wait_time_ns_avg kafka_server_forwarding_metrics_io_wait_time_ns_avg и еще пачку, но они все про время всякое
Хотелось бы прям на количество io тредов посмотреть. Потому что по иопсам, цпу никуда не упирались Такое ощущение что не хватило тредов чтобы разгрести всю очередь из дёти и зафлашить на диск
а как вообще проявляется, данные долго пишутся, теряются? а так проверить опытным путем - увеличить и посмотреть чо будет
Брокер по сети моргнул и уперлись в queued.max.requests (500), не мог разгрести пока не рестартанул брокера Постоянные шринки экспанды isr Соответственно этот брокер не мог зареплицировать партиции и продюс не мог записать поскольку min isr 2
Обсуждают сегодня