жмущихся данных в секунду (фактически таблица три int и два float, но около 25 млн строк в секунду) и обнаружили что 1) сжатие выполняется отложенно, после записи данных, то есть в моменте данные не жмутся а нехило распухают и 2) чтобы успеть все записать нам потребуется не 72 ядра а 256 - так сильно занят проц. Записываем на шпиндели 7200 rpm. И получается что даже ClickHouse не подходит для нашей задачи, а подойдет предварительное сжатие по своему алгоритму с укладкой сжатого в что-то типа Ceph. Вопрос к уважаемому сообществу: есть признаки того что мы сильно неправильно приготовили ClickHouse? Спасибо!
1. 25 милионов строк в секунду - это предполагаемая боевая нагрузка на встаку? 2. Читали ли доку 3. Как часто вставляете и сколько строк в каждом инсерте
Вставляйте одним куском а не 25000 вставок
Я бы на таких объемах лил бы через кафку
Надо в первую очередь посмотреть, чем именно занят процессор. Кстати, данные сжимаются сразу, не отложенно. Отложенно происходят слияния данных для поддержания их в сортированном порядке в MergeTree таблицах. После слияния, на диске в течение нескольких минут держатся старые куски данных, а потом удаляются, из-за чего может создаться впечатление, что данные сжимаются отложенно.
Обсуждают сегодня