среднее значение, некоторые - max / min, некоторые - sum, а самые требовательные хотят histogram buckets, как в circonus - https://www.circonus.com/2018/05/effective-management-of-high-volume-numeric-data-with-histograms/ .
Другой вопрос - зачем нужен downsampling? Для уменьшения объема данных, хранимых на диске, и для ускорения выполнения запросов на больших интервалах времени. Оба требования можно обойти, улучшив сжатие данных и ускорив выполнение запросов на больших объемах данных, как это сделано в VictoriaMetrics:
- https://medium.com/@valyala/victoriametrics-achieving-better-compression-for-time-series-data-than-gorilla-317bc1f95932
- https://medium.com/@valyala/measuring-vertical-scalability-for-time-series-databases-in-google-cloud-92550d78d8ae
В этом случае downsampling может и не понадобиться. При этом получаем дополнительное преимущество - отсутствие потери точности при работе со старыми данными.
спасибо за быстрый ликбез, и что напомнили про VictoriaMetrics пошел изучать
где же столько дисков взять, если выкинуть прореживание, и на вход получать 500TB(уже сжатых) данных в неделю с сеткой 5 секунд?
Обсуждают сегодня