самописный сишный демон, который читает сислог, собирает его в батчи (100к), и отправляет в кликхаус по HTTP (INSERT ... FORMAT Values). Грубо говоря, лог показов, сырой. Есть еще сгруппированный лог показов, который льется в мускуль. Так вот, иногда бывает, что они не совпадают по количеству за сутки, дельта порядка сотен тысяч строк (иногда 50к, иногда 400к) при 200 млн за сутки. В логах ни у демона, ни у кликхауса ничего по этому поводу нет. Но! Когда берешь сислог за этот день (он отдельно еще складируется), и заливаешь его руками в соседнюю таблицу - совпадает. То есть, единственное куда грешить - это заливка данных. Таблица ReplicatedMergeTree.
Много селектов и записи данных, процы и диски загружены по самое не балуй, но в репликации ошибок нет, работает без сбоев, селекты селектятся быстро. В новогодние праздники не было "ни единого разрыва", а перед новым годом почти каждый день. То есть грешу на высокую нагрузку, но критических значений железо вроде не превышает, в логах пусто. Обещают новые мощные серваки, но пока их нет, а проблема есть.
Может ли такое быть, что демон отправил INSERT, КХ ему ответил "200 OK", но в результате каких-то затупов zookeeper отвалился по таймауту (такое иногда проскакивает), и поэтому данные не вставились?
200 ОК при вставке в ReplicatedMergeTree возвращается только после записи пачки данных в файловую систему и регистрации этого куска данных в ZooKeeper. От нагрузки не может зависить. Можно подумать над граничными случаями - если при вставке разорвалось соединение и статус неизвестен - клиент должен повторить вставку, но не повторяет?
Обсуждают сегодня