на больших продовых данных, кластер 30 шардов, табличка партицированная, а вот словарик, как я понимаю, будет один и тот же везде поднят в память и никаких overhead на передачу словарей на разные машины не будет же? И оно сначала по возможности посчитает отдельно по шардам и потом будет агрегировать? или, наоборт, если сможет - посчитает без словарей и словари в конце накинет, если этого не требует расчет? где почитать про движок словариков и его оптимизацию относительно основного запроса?
Как запрос напишете так и будет. Чаще всего приходится писать запрос с подзапросом чтобы словарь применялся на верхем уровне к предгруппированным данным, чтобы меньше обращаться к словарю, и потом снова группировка. Т.е. словарь используется на инициаторе. Есть возможность пометить атрибуты injective, но это не всегда возвоможно и не всегда помогает.
Спасибо! То есть внутри оптимизатор сам не пытается понять, стоит ли на нижнем уровне или на верхнем к нему обращаться.
я говорю что вместо select dictGet( .... , key) d, .... group by d в 90% случаев имеет смысл писать select dictGet( .... , key) d, .... (select key, .... group by key) group by d ну и почитайте что такое injective атрибуты оптимизатор КХ это сам не делает, потому что это вообще-то неэквивалентное преобразование, и оптимизатор не знает где у вас словари ( на каких серверах ).
Обсуждают сегодня