Есть кафка. из топика которой льются данные через queue->mat. view->local tables на каждой ноде. Я попытался распределить потоки данных через количество consumers в queue-tables, с целью накопления бОльшего обьема данных на нодах с большим обьемом дисков, но кафка распределяет то количество партиций, которое есть в топике не пропорционально количеству consumers, которое я указал. Кто нибудь сталкивался с подобной проблемой?
я бы делал через дистрибьютид таблицу и веса. вы пытались количеством kafka таблиц регулировать?
по сути это одна большая таблица. А заливка через distributed с round() и весами на шардах сильно увеличивает нагрузку?
round ? rand() ? >А заливка через distributed с round() и весами на шардах сильно увеличивает нагрузку? нагрузку создаваемую инсертами ну зависит от того сколько лить, увеличивает на сеть процентов на 30, на cpu тоже типа процентов на 20
Ясно. Спасибо. А насколько плохая идея делать attach/detach queue-table в зависимости от заполненности диска на ноде внешним скриптом?
нормальная идея. я вопрос спрашивал, потому что я ничего не понял из первого сообщения, повторю вы пытались количеством kafka таблиц регулировать?
Я не понял вопрос, видимо. Сейчас на каждой ноде есть одна кафка-таблица для этого топика. Вы имеете ввиду, что можно создать несколько кафка-таблиц на одной ноде для одного топика и лить данные в одну local несколькими mat.view ?
что такое кол-во consumers ? Я попытался распределить потоки данных через количество consumers в queue-tables
kafka_num_consumers
Обсуждают сегодня