если я готов жертвовать скоростью записи в обмен на надёжность?
Тогда хз.
Очевидно надо тогда писать хоть в файлы. А оттуда в кх.
Т.е. схема такая Источник -> s3 file -> kx?
тогда вы будете писать в несколько разных мест
Поверьте очень рабочая схема. Я вот сейчас из бэкапа поднимаю кластер.... Так один день туда покинуть минут 5 и норм.
нет! если вам нужна полная достоверность, то вы пишете в три точки минимум и в четвертую еще и контрольную сумму а иначе вы притворяетесь что вам нужна достоверность
Нуу это прям Когда совсем-совсем надо сохранность. Просто в s3 чему падать?
ну простите. я просто не понимаю всех этих слов о недопустимости потери одной транзакции от тех, кто пишет только в один источник, без проверки записи и контроля целостности. либо миримся что плюс минус копейка не проблема, либо все серьезно. а, да, и деньги в float :))))
Так поэтому и была идея использовать кворум для записи на неск реплик, а запись в одну партицию на кх вроде и так надёжна (если верить документации).
Ну согласен. Так или иначе клик не транзакционная бд. И умеючи кластер положить как вот оказалось там "на раз". Зато как конечная витрина прям песня
У кворума есть очень большие проблемы. Если не хочется буквально рвать волосы из попы потому что из головы все уже вырвали лучше кворум не использовать.
а тут я согласен поэтому совершенно не парюсь возможными потерями. всегда есть источники из которых за приемлемое время все подниму а если потери в милионных долях, то и вот та рука вверх.. КХ для аналитики
А можно в кратце рассказать о проблемах или скинуть ссылки, где почитать?
Данные за неделю точно сможем восстановить, будет сверка целевой системы и кх, и только если данные совпали, то удаляем данные из целевой
ну и не парьтесь делайте копию на S3 и достаточно
Если в Parquet zstd файлы дампить скорость восстановления не сильно страдает?
тут я не копенгаген но если процес параллельный, то не должно
Паркет zstd ? Причем тут восстановление?
Из него в клик mergetree переливать с s3. Если учесть что s3 не ограничен в скорости сети до клика.
В этом смысле zstd ускоряет, потому что меньше данных записывается из за сжатия
То-е не будет 2ой работы на клике?: расжатие из parquet zstd и сжатие в клик zstd
Ниче не понял. Мы покупаем или продаем?
Ладн, пофиг, цпу не жалко для сжатия+расжатия)
Zstd на разжатие супер быстрый, если жать zstd1 то оно тоже быстро. Cpu обычно не узкое место, узкое место сеть, диск, s3
Обсуждают сегодня