впечатление:
Например, есть 3 реплики.
В исходный запрос добавляются sample по 1/3 со смещенеиям и отправляется на 3 реплики. Так как каждая реплика работает параллельно и в каждой реплике перелопачивается треть данных, то запрос на каждой реплике отрабатывает быстрее в 3 раза (по сравнению со случаем, если бы этот запрос выполнялся на 1 реплике со всеми данными). Дальше это агрегируется уже на той ноде, в которую попал запрос и возвращается пользователю.
Я в чем-то не прав?
ну так вот не перелопачивает в 3 раза быстрее треть данных, все не так
положите 3 текстовых файла по 30 гиг на 3 компа. сделайте скрипт читающий 1 гиг из 3х (seek, read, seek, read) и увидите...
Обсуждают сегодня