батч был послан дважды и дважды записан на удаленный шард? Например, из-за нагрузки на zookeper и диск?
Я ловлю такие ситуации в моменты высокой параллельной нагрузки, при этом дублеж в etl исключен, он для отладки параллельно пишет в файл и там нет дублежа.
Да, может. А есть парллельная запись напрямую в шард таблицы? Надо смотреть по логам почему так получается и пробовать увеличить deduplication window например до 200 или 500.
Обсуждают сегодня