5.000.000 строк и 1500 колонок. Со временем количество строк может расти, но сравнительно медленно. Сценарий вставки такой: сначала приходят 100-200 колонок для одной строки, потом еще 300-500, потом еще пачка колонок. Так через несколько итераций собирается строка на 1500 колонок. Колонки могут быть в т.ч. Nested. На запись будет не больше 5RPS. При нормальном использовании даже меньше 1RPS. Во всех доках, которые я нашел сказано, что INSERT для CH - норм, а UPDATE, DELETE - ну такое. В этом сценарии мне стоит опасаться, что при вставках через UPDATE я нарвусь на сильные деградации производительности или можно первую вставку делать INSERT’ом, а остальные UPDATE’ом? Пока склоняюсь к тому, что лучше бетчить: дожидаться получения строки целиком или лучше даже дожидаться нескольких строк, хранить промежуточные результаты во временном хранилищец и потом вставлять в CH INSERT’ом пачкой. Есть ли еще какие-нибудь варианты?
Добрый день, посмотрите в сторону движка CollapsingMergeTree или VersionedCollapsingMergeTree, мб это то, что вам подойдёт
и просто UPDATE’ами писать в таблицу в этом случае?
Там специальный insert, со старыми данными и новыми, вы как бы шлете старые с флагом -1, и оно их схлопывает само, а новые с 1, они остаются, почитайте, в доках очень подробно об этом. Потом есть специальный подход к выборке через select, чтобы не брать старые данные
Обсуждают сегодня