SRE расшифровывается как Simply Restart Everything?
* в influx ts в ms. А в vm в s. Может телеграфом ошибся, не знаю. В итоге пока значения там и там могут отличаться. в инфлюксе таймстемпы хранятся в наносекундах, а в вм - в м...
какие именно? Брайн придрался к трем штукам: - плохое сжатие рандомных чисел в ВМ. Похоже, он не проходил теорию информации в универе и не знает, что рандомные числа не сжимаю...
Может, использовать statsd для агрегации гистограмм? См. https://github.com/statsd/statsd/blob/master/docs/metric_types.md#timing . Там можно конфигурировать, с каким интервал...
Автоматический downsampling сложно сделать так, чтобы всем угодить. Некоторые хотят среднее значение, некоторые - max / min, некоторые - sum, а самые требовательные хотят hist...
да, примерно так и есть ) Например, есть бага с провалами в графиках - https://github.com/VictoriaMetrics/VictoriaMetrics/issues/139 . Она проявляется при большом разбросе инт...
- Что происходит со вставкой новых данных в кх, когда зукипер начинает глючить? Вроде КХ переходит в ридонли режим и не принимает новых данных. Где вы храните не записанные да...
Уже выходили из строя диски в raid6? Сколько времени заняло восстановление данных после замены диска? А не то тут пугают недельным восстановлением, в течение которого высока в...
drop-in replacement для чего? Если для датасорса в графане, то все - m3db, cortex, thanos и victoriametrics - поддерживают prometheus querying api, поэтому все они могут быть ...
у вас кластерная версия вм или single-node? если кластерная, то убедитесь, что в логах vmselect и vmstorage нод нет ошибок на интервале времени, когда обновлялся второй график
Вы случайно не путаете доступность данных с их консистентностью и сохранностью? Если часть данных теряется или портится, но при этом оставшиеся данные остаются доступны для чт...
Может, стоит отказаться от жрущего память инфлакса и перейти на node_exporter+Prometheus? Там есть PromQL, который намного удобнее ущербного InfluxQL или Flux. См. https://med...
Под большим дисковым кэшем вы понимаете большие значения vm_dirty*? Его размер должен быть согласован со скоростью записи на диск. Чем выше скорость записи, тем больше можно д...
- можно поменять resolution в редакторе запроса - если выбрать там 1/10 вместо 1/1, то графана будет вытягивать из прометеуса точки не по каждому пикселю, а по каждому десятом...
кто мне объяснит, зачем внутри локальной сети нужно шифрование? сесурити ради сесурити?
> При использовании большинства коллекторов с каждого сервера намывает под 1000 уникальных метрик В нашем node-exporter'е - 417 метрик на сервер: avg(count({job="node-exporter...
да, мы не смогли заточить ClickHouse для управления большим количеством time series с произвольными тэгами, как в прометеусе. Насчет места - вопрос решаемый, но это может оказ...
какая версия прометея? Если какая-нибудь доисторическая до 2.х, то срочно переходите на нормальную вроде 2.13.0, т.к. старые версии вообще не оптимизированы под низкое использ...
Тебе нужно построить гистрограмму по времени обработки запросов на adserver, который обрабатывает 3 миллиона запросов в секунду. Ты будешь записывать сырые данные по всем 3 ми...
а как же причина "потому что это круто и web-scale, как mongodb"? http://www.mongodb-is-web-scale.com/ вроде это основаная причина, почему люди предпочитают использовать клас...