качестве основного и единственного хранилища данных? потеря данных недопустима.
источник данных - kafka, отдельный процесс читает из кафки и пишет в clickhouse, в случае ошибки оффсеты не комитятся, т.е. можно бесконечно делать retry.
в моем понимании - при replication factor = 2, реплики в разных availability zones, insert с insert_quorum = 2 потеря данных невозможна (при условии что одновременно не упадут реплики в обоих зонах, до того как os сбросит данные на диск).
упускаю ли я что-то? на что стоит обратить внимание?
Ну в кафке и назад заглянуть можно, вы какое окно собираетесь держать? insert_quorum не работает, если одна реплика недоступна, что не очень удобно. > потеря данных недопустима А что если кто то сделает ALTER DELETE или дроп партиции?
Альтернативный способ восстановить базу, если она все-таки сломается. Регулярные бэкапы как минимум, а дальше нужно трезво оценить риски потери данных за n часов vs дополнительные работы по бэкапу кафки
зукипер еще может поломаться
Обсуждают сегодня