я думаю, что примерно у 2000 членов этого чатика есть. Лучше вопрос написать
Ну скажем есть две задачки: Есть злой запрос на 100+ строк и хотелось бы на вычислительную часть с кучей джоинов натравить панду, т.к. кликхаус джоины не любит А вторая это непосредственно джоин 5 огромных таблиц, в сумме они под 300Гб весят и кликхаус с этого конечно в шоке, хотелось бы написать скриптик который будет брать и джоинить по частям, по неделям например или месяцам
а что за кейс, откуда появляются такие большие таблицы в джойнах? Это какой-то процессинг? Или отчётность так построена?
Это на один раз, исторические данные. Склеил их PySpark-ом теперь сказали проверить в кх
я обычно такие вещи кидал в какую-нибудь реляционную базу (мс сиквел или постгрес, например) и делал там
Обсуждают сегодня