работу в одних и тех же условиях, но почему-то у одних воркеров LAG большой, а у других маленький. Есть какие-то очевидные причины почему так может быть?
а колво сообщений в партициях одинаковое примерно?
data locality?
Да. Даже те воркеры, у которых LAG меньше, заасайнены в партишены, у которых сообщений больше.
а насколько больше лаг?
В 5-20 раз разница (по-разному), в основном это где-то 30% самый большой, 30% средний, и 30% совсем маленький. Например, 7 воркеров по 10К, 7 по 3К, 7 по 180.
может такое быть что флуктуация в логике обработки сообщений? БД тормозит, разные мощности у машин, разная логика для разных сообщений?
Сначала проверь распределение данных по партициям, хеширование несовершенно и вполне может быть, что у тебя одни партиции переполнены, в то время как другие пустуют. Если не это, то проверь байтрейт на все участвующие машины, если сетевая проблема, что случается часто, особенно на облаках, то некоторые воркеры просто физически не получают свои данные с той же скоростью, с которой их получают остальные. И только потом можно грешить на 1) виртуализацию, 2) рантайм и конфигурацию приложения и 3) железо в том порядке, в котором я озвучил. Это из моего личного опыта с такими проблемами.
Обсуждают сегодня