вставлял без парсера? JSONAsString?
да JSONAsString CREATE TABLE Test.queue ( j String ) ENGINE = Kafka('localhost:9092', 'TestData', 'group1', 'JSONAsString')
получилось, спасибо, я зациклилась на том, что поля - это структура сообщения kafka timestamp, level, message, хотя level меня несколько смущал 😁
но вообще kafka engine сам может разобрать сообщение JSONEachRow CREATE TABLE Test.queue ( UserUid String, Time UInt64, Country String ) ENGINE = Kafka('localhost:9092', 'TestData', 'group1', 'JSONEachRow') в mativew просто нужно будет преобразовать toUUIDOrZero(UserUid) , toDateTime(Time) ....
Ну, да, я поняла. Заодно, поделитесь мнением, пожалуйста,благонадежно этим движком пользоваться? Или лучше отдельный сервис использовать для загрузки сообщение из кафки в клик?
ИМХО конечно нельзя пользоваться kafka=engine. НО десятки тысяч пользователей КХ абсолютно счастливо используют kafka=engine
Спасибо ) примерно это и ожидала услышать.
Добрый день, перечитываю чат в рамках обучения. Подскажите, пожалуйста, какие подводные камни есть в Kafka engine ? Где-то можно почитать?
Есть классная тема, если из Кафки приходит столбец с названием channelid, то там данных в КХ не будет.
Гарантирует только at least once. Иногда будут дубли, и если данные критичны, придётся что-то с этим делать(писать уникальный id записи например + replacing использовать)
он не очень гибкий. Не очень удобно поддерживать обработку ошибок в сообщениях, если есть топики из разных брокеров и таких брокеров много это все сложно настраивать и нужен рестарт КХ, он не умеет exactly once. Но exactly once почти вообще никто не умеет из коробки для КХ. Тут дело такое. Я как Альтинити инженер на первом же митинге с новым клиентом, рассказываю: что kafka engine убог и вообще говно, вы такие умные используете spark и понятно что json ужасен из-за дичайшего оверхеда, давайте сделаем POC kafka engine+JSONEachRow, а потом вы перепилите все без kafka engine и перейдете на TSV вместо JSON. Делаем POC, все всем нравится, и в итоге в прод большинство прям так и идут, пофиг и на оверхед по CPU и трафику и на что есть дубли в 0.00001% случаев. Я конечно в жизни не стал бы использовать kafka engine в проде, это безумие, но я и в distributed таблицы не вставляю. Мне проще кода нафигачить или других заставить сделать как я хочу, а не как проще.
ну это баг, это надо репортить, исправить это минут 5 займет и я бы проверил что у вас в слове channelid , все буквы латиницей,потому что в коде КХ и librd я не вижу channelid. Есть _channel_id в engine=rabbit
Спасибо за развёрнутый ответ
Обсуждают сегодня