таблицу . Как результат очень много активных кусков после инсерта, которые со временем (несколько минут) исчезают. Правильным ли подходом будет читать в buffer таблицу ? Смущает ее особенность, когда данные могут потеряться.
Очень много это сколько? что с партиционированием, какой поток данных
5-10 тысяч, партиционирования по месяцам. Поток 10-20 мб/с ( сотни тысяч строк) , но читается батчами по 5к, если не ошибаюсь.
> , но читается батчами по 5к, если не ошибаюсь. Это что то неправильное, какая версия кх?
Не совсем понял. Версия декабрьская 2020 или январская, точно не вспомню .
А какой размер партов который кх создает?
К сожалению , такие подробности не имею возможности уточнить.
Тоже прочитал про буфер-движок и подумал, что он на уровне кх реализует то, что у нас сейчас наша самописеая приложенька делает: читает кафку, раз в 10 сек скидывает батч по 5-20к записей в кх. Но почитав подробней про buffer, понял, что наше решение огонь)) Ну, а вообще 5-10 тыщ партов это овер дохуя
настройке в кафка-движке что бы батчи были по 64к дефолтный сеттинг слишком маленький
5-10 тысяч в секунду, .., в год? Раз в 7 секунд flush в kafka-engine
дефолтный 1 млн. Там две настройки, сколько poll, и сколько флаш
что? раз 1-3 минуты, наблюдается такая нагрузка ~40-50 секунд.
надо лог смотреть.
Партицирование точно ТОЛЬКО по месяцам? может там какой нибудь PARTITION BY date, clientID ?
Обсуждают сегодня