шардов), в него пишу независимо в каждый шард определенный поток данных (шардирую на стороне клиента), движек таблицы ReplicatedMergeTree, вставляю в несколько потоков, на каждый шард приходится 4-5 вставляющих потоков, вставка каждым потоком происходит не чаще раз в 1 секунду относительно крупными кусками (10-20мб), иногда проскакивают дубли (при недоступности шарда, или пересоздания потока). Есть у кого какие рецепты как этих дублей избежать? (знаю что есть очередь дедубликации, она выкручена на шардах в 1000). В данных есть колонки специально завезенные для дедубликации.
А как ты понимаешь что дедупликация не работает? Смотришь на данные?
Обсуждают сегодня