начали выпадать куски и помечаться как broken, при чем за рандомные даты и в разных таблицах.
в логах вижу при этом
2019.08.01 08:51:06.998053 [ 42 ] {} <Error> default.event_shard (ReplicatedMergeTreePartCheckThread): DB::CheckResult DB::ReplicatedMergeTreePartCheckThread::checkPart(const String&): Code: 173, e.displayText() = DB::ErrnoExcepti
on: Allocator: Cannot malloc 64.00 KiB., errno: 12, strerror: Cannot allocate memory, Stack trace:
2019.08.01 08:51:06.998113 [ 42 ] {} <Error> default.event_shard (ReplicatedMergeTreePartCheckThread): Part 20190801_20190801_1194_2517_7 looks broken. Removing it and queueing a fetch.
может ли это быть связано с тем , что кх не смог посчитать чексумму из-за проблем с памятью и пометил их как broken или проблема в чем-то другом?
из гипотез были проверены так же диски, но с ними все ок.
пара таблиц в качестве эксперемента была полностью пересинхрена, но после ресинка куски также выпадают.
сетевых проблем между до реплики и зк, так же обнаружено не было, и проблема возникает ток на одной паре из 4х
версия 19.11.3.11
вы lowcardinality испольуете? в брокен парте есть .dict. file?
поменял пока оверкомит и уменьшил потребление памяти, посмотрим повторится ли после ресинка побитых данных
тогда не знаю, попробуйте напрямую передать сам брокен парт Миловидову или Сапину. Чтобы они посмотрели на самом деле сломан или чекер ломается.
Обсуждают сегодня