184 похожих чатов

Добрый день. Есть таблица распределенная поверх вреплицируемых таблиц (4*2 4

шарда по 2 реплики)
В целях стресс тестирования на одной машинке остановили КХ (node14). Через 20 мин началось на спаренной реплике

2018.07.27 10:26:01.949040 [ 638 ] <Error> executeQuery: Code: 252, e.displayText() = DB::Exception: Too many parts (1502). Merges are processing significantly slower than inserts., e.what() = DB::Exception (from 10.1.2.5:47558) (in query: INSERT INTO MetricsDistributed FORMAT TabSeparated), Stack trace:
2018.07.27 10:26:02.010363 [ 638 ] <Error> HTTPHandler: Code: 252, e.displayText() = DB::Exception: Too many parts (1502). Merges are processing significantly slower than inserts., e.what() = DB::Exception, Stack trace:


В это время сделали запрос такой ко всем нодам

SELECT count(*) FROM system.parts WHERE active;

node11
448
node12
442
node13
428
node14
N/А
node21
448
node22
430
node23
426
node24
1511

1. Как видно на спаренной реплике (node24) кол-во партиции достигло лимита и она перестала принимать данные на запись.
2. В это время клиент который вставляет пачками начал получать исключение и пытаться повторно вставлять - как итог появление повторов хотя размер батча меньше во много раз чем настройка размера максималььного блока.
3. Запросы на чтение начали отдавать неконсистентные данные, такое ощущение что 24 вылетела из работы вслед за остановленной 14 из-за этих мержей и частей. Как только вернили 14 то 24 тоже ожил и запросы на чтение начали возвращать корректные данные

По поводу 1, это нормаьное поведение? Почему node24 не маржит части без node14? Если мержить невозможно то есть ли смысл parts_to_throw_insert выставить не в 1500 а скажем в 20000? Чем это грозит?

По поводу 2, дубликаты в таком случае это норма или все таки баг? Переходить на другой движок для схлопывания дубликатов или если баг то как обойти?

Поведение 3 это норма? Как сделать чтобы исключение бросало вместо возвращения некорректных данных?


Извините за много вопросов и длинный теекст, но надо рахобраться что делать по пунктам.

1 ответов

13 просмотров

Надо смотреть почему ReplicatedMergeTree не смог назначить мержи при 1-й живой реплике, по идее это не должно ему мешать, ну отпала реплика и фиг с ней, поднимится скачает нужные куски и довыполнит нужные мержи. Для дубликатов по дефолту используются хеш-суммы последних 100 вставок, можно легко на это влететь учитывая что у вас 1,5к кусков, а значит и вставок было сильно больше 100. 3 тоже нужно смотреть что и как

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта