КликХауз в следующем случае.
1 раз в неделю питоновским скриптом я собираю данные с некоего сайта в пандасовский датафрейм.
Данные собираются нарастающим итогом.
То есть, после каждого еженедельного запуска скрипта в Датафрейм попадают все данные с сайта с начала года по текущий день.
При этом, Датафрейм полученный неделю назад , может вовсе не отличаться от Датафрейма полученного сегодня, так как данные на сайте обновляются иногда раз в неделю , а иногда и раз в две недели...
Задача, научиться класть этот еженедельный Датафрейм в котором данные с начала года до сегодня в Кликхауз.
Самый простой способ, насколько я понимаю - это в Кликхаузе удалять старую Таблицу в которую был залит Датафрейм на прошлой неделе и на её месте создавать новую Таблицу с таким же названием и класть в неё новый свежий Датафрейм?
А вам точно кликхаус нужен ? Вы прям рассказываете про апсерт в сцилле/касандре. В кликхаусе, возможно подойдёт collapsingmergetree
Нужен. Туда просто не только эти датафреймы валиться будут , но и из других источников всякие данные. Кликхауз как DWH вместо MS SQL server планируется юзать. Collapsingmergertee погуглю спасибо
Обсуждают сегодня