шардов по 2 реплики, итого 60 машин. Выполняю запрос к distributed таблице, он выполняется то за 0.15-0.25 сек, то за 2+сек. Нагрузка на шарды довольно ровная, число записей - тоже. Если включить distributed_group_by_no_merge=1 и добавить в отображение hostname() то видно, какой сервер ответил последним и каждый раз он меняется, т.е. нет какого то явного аутсайдера - условно или все 30 машин ответили быстро или быстро ответили 28-29, а оставшиеся 1-2 подтупливают. Конфигурация серверов одинаковая, настройки все одинаковые, это отдельные машинки, не впс, на них не крутятся другие сервисы. Объединены локальным гигабитом внутри одного ДЦ. Больше всего смущает, что или все быстро <0.3 секунды или же медленно >2. т.е. нет каких то совсем промежуточных вариантов....
Есть ли какие то способы найти "более виновные" машинки и как то помочь им жить?
А если делать простой запрос, типа select count тоже так?
Обсуждают сегодня