таблицы с ENGINE kafka, которые читают из одного и того же топика Кафки (т.е. условно, если есть топик с кликами, то на каждой реплике есть таблица, читающая этот топик). Пишу в Кафку какие то сообщения (одинаковые) и время от времени получаю в лог одной из машин такое сообщение, на второй ничего не пишется в этот момент, в то время как если запись проходит, то пищется в оба лога:
2020.06.25 17:54:57.871377 [ 5409 ] {} <Debug> db.table (Replicated OutputStream): Wrote block with ID '202006_15114492565133963966_13996427919511571955', 1 rows
2020.06.25 17:54:57.875293 [ 5409 ] {} <Information> db.table (Replicated OutputStream): Block with ID 202006_15114492565133963966_13996427919511571955 already exists; ignoring it.
В результате теряются сообщения, проходя через materialized view и попадая в целевую таблицу. Причем если удалить MV и просто читать из таблицы с ENGINE kafka, то количество сообщений то же, что и было отправлено.
Почему CH игнорит сообщения Кафки? Правильно ли создавать на обоих репликах таблицы, читающие из одного и того же топика Кафки?
одинаковые сообщения? так это дедупликация, кафка engine тут вообще ни при чем вы пишите виртуальный столбик из кафка engine _timestamp или _offset чтобы строки разные получались
Обсуждают сегодня