большой кластер кубера в котором относительно часто поднимаются и останавливаются поды (типа запуски тестирования софта).
на каждой ноде кубера есть node-exporter который экспортит тучу метрик, в том числе по каждому поду.
В результате получаем очень много короткоживущих серий которые занимают место, портят перформанс и тд.
Как с этим справляться? Я вижу два пути - фильтровать такие серии либо строить двухуровневый кластер и отправлять короткоживущии серии туда. Оба варианта требуют серьезной поддержки - в первом случае нужно аккуратно отбрасывать только ненужное, во втором - нужен вторй кластер для короткоживущих серий.
Чтобы ответить на этот вопрос, сначала нужно понять - нужны ли Вам этим метрики :) Если нет - фильтровать их as early as possible, включая отключение ненужных коллекторов в node exporter'e, фильтрацией в vmagent. Если да, но только на небольшой срок - то городить схему с разными retention'ами для разных групп метрик. Но тут коллеги подскажут, как это сделать эффективнее. На мой взгляд, именно victoria/prometheus тут не очень подходят в целом (т.к. нет функционала, например, как .retention policy в influx)
На вопрос нужны метрики или нет я тоже не очень могу ответить так как по некоторым из этих короткодивущих метрик могу стрлиться алерты и заранее неизвестно по каким именно. Достоверно известно что уже через неделю они будут ненужны
Обсуждают сегодня