не можешь разрулить?
Да там lookup data, обновляется раз в день, и так совпадает, что периодически мой процесс цепляет эти данные, работает минут 20, потом пытается читать, но к тому времени названия файлов уже другие. У меня руки не дошли реализовать эти lookup данные по человечески.
А ты их в самом начале вычитывай и .persist
Там где-то 40ГБ, только нужные поля
Все равно посередине может упасть
Делай set partition location / set table location в записывающем процессе. Тогда чтецы не упадут А старый локейшон удаляй черкз сутки
Кароч сделай синхронизацию между двумя процессами, хотя бы через создание лок-файлика в S3
Или юзай дельта / айсберг
Да, это я и хочу сделать, как будет время
Обсуждают сегодня