что лучше: условно, 16 серверов по 20 CPU / 200 GB RAM / 2 TB Disk, или же 32 сервера по 10 CPU / 100 GB RAM / 1 TB Disk?
для клика жирные сервера получше будет
Рискну предположить, что кроме некоторых специфичных задач первая конфигурация условно будет быстрее + в нее влезет больше данных в табличках.
Так изначально и думал, но вот хотелось бы найти авторитетный источник, где бы данная мысль подтверждалась. А то пришли коллеги со странными идеями...
коллегам объясните суть простая изначально clickhouse писался по архитектуре shared nothing + data locality то есть в момент когда данные нам нужны, мы хотим их максимально быстро и эффективно прочитать в память ... и максимально быстро в памяти запроцессить и отдать результат для этого мы максимально все паралелизируем, но в рамках одного сервера... если у вас много запросов и они читают много данных то ваша конкретная нода, которая процессит часть данных должна иметь необходимое CPU, IO, RAM для этого... соответсвенно жирные ноды быстрее и лучше утилизируются только последние 3-4 года с появлением clickhouse.com они пишут elasitc compute где пытаются использовать s3 но sharedMergeTree который это эффективно реализует, в опенсорц не вышел (и наверное не выйдет) и уметь приготовить большые s3-like storage тоже надо уметь (это не тупо minio развернуть какой то)
Обсуждают сегодня