key user_id % 2, таблица users replacing, так же консьюмер из кафки для пользователей который вставляет данные в users_all
Такая проблема: произошел баг, что записи с одинаковым user_id попадали в разные шарды. Как такое может быть ?
Так же при выборке из локальной таблицы на шарде select * from users where user_id = X => возвращается то 2, то 3, то 5, то 1 записей в зависиомсти от фазы луны(записи полностью одинаковые).
up
1. хз 2. реплейсинг схлопывает строки в фоне, а не сразу. подробнее читайте доку
дак реплейсинг может вернуть меньше записей, но никак не больше
т.е. вы вставили одну запись, а в таблице может быть 2 или 3?
вообще это сторонняя проблема которая меня никак не афкеттит, просто как факт я вставил 10 записей делаю селект возвращается то 1, то 3, то 5, то 2. Рандомное количество
ну если активно идёт вставка новых строк, то число может скакать вверх-вниз. если вы остановили вставку, а количество записей продолжает скакать вверх-вниз, а не только вниз, то может идти репликация и параллельно сворачивание.
этим данным больше месяца
лучше подскажите почему шардинг перестал работать) кластеру больше двух лет. никаких проблем не было.
и как обычно за эти два года ничего не менялось... ну разве что там один маленький параметр подкрутили, который ни на что не должен был повлиять... тут половина вопросов с такого вступления начинается, а потом оказывается, что кластер разъехался или где-то колонку добавили или место на дисках закончилось :) PS: вспоминайте последние изменения, даже самые безобидные
класттер живет своей жизнью тока селекты выполнялись)
ну если совсем ничего не менялось, то смотрите логи, может там ошибки появились, которых раньше не было.
а какая версия кликхауса?
хм, не думал, что больше двух лет назад уже была эта версия :)
ну так мы его апдейтим. он не обновлялся уже месяца 3-4. был чисто спайк за 2 дня с этим шардингом. поттом все само восстановилось
2 дня спайк. что ж там такое произошло... обновили все ноды?
дефолтный ролинг апдейт накатили. через пару месяцев случился спайк.
т.е. спайк произошёл не сразу после апдейта, а через два месяца после него?
ну с такой мистикой на проекте, когда ничего не меняют месяцами, а потом само по себе что-то периодически стреляет, может быть всё что угодно. будем ждать ответы тех, кто с подобным сталкивался.
сделайте селект на дистрибьютед таблице, а потом ещё по селекту на каждой локальной базе и сравните в чём отличие.
Обсуждают сегодня