SRE расшифровывается как Simply Restart Everything?
* в influx ts в ms. А в vm в s. Может телеграфом ошибся, не знаю. В итоге пока значения там и там могут отличаться. в инфлюксе таймстемпы хранятся в наносекундах, а в вм - в м...
какие именно? Брайн придрался к трем штукам: - плохое сжатие рандомных чисел в ВМ. Похоже, он не проходил теорию информации в универе и не знает, что рандомные числа не сжимаю...
Может, использовать statsd для агрегации гистограмм? См. https://github.com/statsd/statsd/blob/master/docs/metric_types.md#timing . Там можно конфигурировать, с каким интервал...
Автоматический downsampling сложно сделать так, чтобы всем угодить. Некоторые хотят среднее значение, некоторые - max / min, некоторые - sum, а самые требовательные хотят hist...
да, примерно так и есть ) Например, есть бага с провалами в графиках - https://github.com/VictoriaMetrics/VictoriaMetrics/issues/139 . Она проявляется при большом разбросе инт...
- Что происходит со вставкой новых данных в кх, когда зукипер начинает глючить? Вроде КХ переходит в ридонли режим и не принимает новых данных. Где вы храните не записанные да...
Уже выходили из строя диски в raid6? Сколько времени заняло восстановление данных после замены диска? А не то тут пугают недельным восстановлением, в течение которого высока в...
drop-in replacement для чего? Если для датасорса в графане, то все - m3db, cortex, thanos и victoriametrics - поддерживают prometheus querying api, поэтому все они могут быть ...
Вы случайно не путаете доступность данных с их консистентностью и сохранностью? Если часть данных теряется или портится, но при этом оставшиеся данные остаются доступны для чт...
Может, стоит отказаться от жрущего память инфлакса и перейти на node_exporter+Prometheus? Там есть PromQL, который намного удобнее ущербного InfluxQL или Flux. См. https://med...
у вас кластерная версия вм или single-node? если кластерная, то убедитесь, что в логах vmselect и vmstorage нод нет ошибок на интервале времени, когда обновлялся второй график
Под большим дисковым кэшем вы понимаете большие значения vm_dirty*? Его размер должен быть согласован со скоростью записи на диск. Чем выше скорость записи, тем больше можно д...
- можно поменять resolution в редакторе запроса - если выбрать там 1/10 вместо 1/1, то графана будет вытягивать из прометеуса точки не по каждому пикселю, а по каждому десятом...
кто мне объяснит, зачем внутри локальной сети нужно шифрование? сесурити ради сесурити?
> При использовании большинства коллекторов с каждого сервера намывает под 1000 уникальных метрик В нашем node-exporter'е - 417 метрик на сервер: avg(count({job="node-exporter...
да, мы не смогли заточить ClickHouse для управления большим количеством time series с произвольными тэгами, как в прометеусе. Насчет места - вопрос решаемый, но это может оказ...
какая версия прометея? Если какая-нибудь доисторическая до 2.х, то срочно переходите на нормальную вроде 2.13.0, т.к. старые версии вообще не оптимизированы под низкое использ...
а как же причина "потому что это круто и web-scale, как mongodb"? http://www.mongodb-is-web-scale.com/ вроде это основаная причина, почему люди предпочитают использовать клас...
Тебе нужно построить гистрограмму по времени обработки запросов на adserver, который обрабатывает 3 миллиона запросов в секунду. Ты будешь записывать сырые данные по всем 3 ми...