что запись в Distributed таблицу не есть хорошо
Подскажите, это до сих пор верно, или что-то поменялось?
Если это до сих пор плохо, то почему?
Double writes, сначала в distributed а потом уже в обычную таблицу, больше данных по сети гуляет, но в некоторых случаях оправдано
Я не совсем понял, а как можно записывать данные на шарды минуя distributed таблицу ?
Ручками, выбираешь нужный шард и отправляешь в него(либо топики в кафке на каждый шард)
Самая большая проблема это надежность, одна точка входа, упадет и вся ваша схема перестанет работать
А ну если только так) Я полагаю когда идет запись через dist таблицу, в записи на шарды принимает участие zookeeper.
нет, Distributed таблица никаким образом не связана с zookeeper и не требует его
Зачем под каждый шард топик? Это создает лишние проблемы, нужно рулить записью на уровне приложения. Делаете один топик и все шарды как одну группу подключаете через кафка энджин, кафка сама разрулит
Если речь идет о шардировании не по рандому, то все равно это нужно где то делать.
Только вот есть разница, делать это в приложении добавлят сложности, а можно отдать это все дело кафке и не парится
> Делаете один топик и все шарды как одну группу подключаете через кафка энджин, кафка сама разрулит Значит шардирование будет по рандому, и определенный user_id ляжет в случайный шард, куда его кафка понесет. Такое подходит не везде
Вы отредактировали свое сообщение, если не по рандому, тогда да
Обсуждают сегодня