ну лог неотвечающей ноды надо смотреть
Пасибо за совет) В логах были ошибки Memory limit (total) exceeded: would use 38.56 GiB (attempt to allocate chunk of 4306735 bytes), maximum: 14.30 GiB. OvercommitTracker decision: Memory overcommit isn\'t used. Waiting time or orvercommit denominator are set to zero.. (MEMORY_LIMIT_EXCEEDED) (version 22.7.1.2484 (official build)) 2022-07-26 08:44:46 40 Not executing log entry queue-0002584427 for part all_2104935_2105674_78 because it is not disjoint with part all_2105647_2105674_6 that is currently executing. Not executing log entry queue-0013849791 of type MERGE_PARTS for part all_7120918_10500281_1490_8076350 because source parts size (78.07 GiB) is greater than the current maximum (70.14 GiB). Сначала добавили swap и все очнулось, но траффик между нодами все равно был огромный. Потом по партам из логов нашли, что они относятся к DETACHED таблицам, которые весили 100Gb. Они были необязательны, поэтому их дропнули. И весь траффик ушел. Все залетало. Такое чувство, что detached таблицы с движком ReplicatedMergeTree все равно активно реплицируются. Так и есть?
Обсуждают сегодня