использования? Все везде твердят, что если хочешь FINAL, то это больно и дорого. Я обрабатываю пачку файлов раз в месяц(20-40гб CSV timeseries). Хочу взять лямбды или cronjob k8s, но не хочу в них запариваться с дедупликацией(джоб может быть убит планировщиком и перезапущен). Насколько корректно делать OPTIMIZE TABLE table1 PARTITION partition1 после процессинга файлов раз в месяц?
20гб раз в месяц -- не страшно. Но вы же можете просто дропать партицию перед инсертом. Или заливать в отдельную таблицу и потом подключать ее к основной как attach from table
Обсуждают сегодня