шарда по 2 реплики)
В целях стресс тестирования на одной машинке остановили КХ (node14). Через 20 мин началось на спаренной реплике
2018.07.27 10:26:01.949040 [ 638 ] <Error> executeQuery: Code: 252, e.displayText() = DB::Exception: Too many parts (1502). Merges are processing significantly slower than inserts., e.what() = DB::Exception (from 10.1.2.5:47558) (in query: INSERT INTO MetricsDistributed FORMAT TabSeparated), Stack trace:
2018.07.27 10:26:02.010363 [ 638 ] <Error> HTTPHandler: Code: 252, e.displayText() = DB::Exception: Too many parts (1502). Merges are processing significantly slower than inserts., e.what() = DB::Exception, Stack trace:
В это время сделали запрос такой ко всем нодам
SELECT count(*) FROM system.parts WHERE active;
node11
448
node12
442
node13
428
node14
N/А
node21
448
node22
430
node23
426
node24
1511
1. Как видно на спаренной реплике (node24) кол-во партиции достигло лимита и она перестала принимать данные на запись.
2. В это время клиент который вставляет пачками начал получать исключение и пытаться повторно вставлять - как итог появление повторов хотя размер батча меньше во много раз чем настройка размера максималььного блока.
3. Запросы на чтение начали отдавать неконсистентные данные, такое ощущение что 24 вылетела из работы вслед за остановленной 14 из-за этих мержей и частей. Как только вернили 14 то 24 тоже ожил и запросы на чтение начали возвращать корректные данные
По поводу 1, это нормаьное поведение? Почему node24 не маржит части без node14? Если мержить невозможно то есть ли смысл parts_to_throw_insert выставить не в 1500 а скажем в 20000? Чем это грозит?
По поводу 2, дубликаты в таком случае это норма или все таки баг? Переходить на другой движок для схлопывания дубликатов или если баг то как обойти?
Поведение 3 это норма? Как сделать чтобы исключение бросало вместо возвращения некорректных данных?
Извините за много вопросов и длинный теекст, но надо рахобраться что делать по пунктам.
Надо смотреть почему ReplicatedMergeTree не смог назначить мержи при 1-й живой реплике, по идее это не должно ему мешать, ну отпала реплика и фиг с ней, поднимится скачает нужные куски и довыполнит нужные мержи. Для дубликатов по дефолту используются хеш-суммы последних 100 вставок, можно легко на это влететь учитывая что у вас 1,5к кусков, а значит и вставок было сильно больше 100. 3 тоже нужно смотреть что и как
Обсуждают сегодня