监控主机和容器

node_export 监控

node_export 一个可用于收集各种主机指标数据（包括CPU、内存和磁盘）的库, 安装在node上。

下载安装

端口号

默认9100端口

node_exporter --web.listen-address==":9600" --web.telemetry-path=="/node_metrics"
复制代码

收集列表

node_exporter --no-collector.arp
复制代码

不使用collector.arp

所有列表在 github.com/prometheus/…

textfile collector

存储信息: metadata{role="docker_server",datacenter="NJ"} 1

指定目录地址： /var/lib/node_exporter/textfile_collector/metadata.prom

--collector.textfile.directory
复制代码

systemd收集器

docker.service Docker守护进程
ssh.service SSH守护进程
rsyslog.service RSyslog守护进程

node_exporter --collector.textfile.directory /var/lib/node_exporter/textfile_collector --collector.systemd --collector.systemd.unit-whitelist="(docker|ssh|rsyslog).service" 
复制代码

抓取

其中9100为node_exporter的端口号

scrap_config:
  - job_name: 'promethus'
  static_configs:
    - targets: ['localhost:9090']
  - job_name: 'node'
  static_configs:
    - targets: ['ip1:9100', 'ip2:9100']
复制代码

过滤收集器

scrap_config:
  - job_name: 'promethus'
  static_configs:
    - targets: ['localhost:9090']
  - job_name: 'node'
  static_configs:
    - targets: ['ip1:9100', 'ip2:9100']
  params:
    collect[]:
      - cpu
      - meminfo
复制代码

监控docker容器

cadvisor
docker run执行端口号8080 ui地址/containers

docker run \
...
--publish=8080:8080
google/cadvisor:latest
复制代码

抓取的生命周期

服务发现－》配置－》重新标记－》抓取－》重新标记
（还不明白为什么要重新标记两次

查询持久性

evaluation_interval 就是这里的时间

rule_files:
  - "rules/node_rules.yml"
复制代码

记录规则：根据查询创建新指标

跨多个时间序列生成聚合。
预先计算消耗大的查询

警报规则：从查询生成警报
可视化：使用Grafana等仪表板可视化查询

文章版权归作者所有，未经允许请勿转载。

THE END

代码人生

Gaim多个缓冲区溢出安全漏洞

iOS 内存对齐原理分析

Debian /usr/bin/suidexec漏洞

Flink Table API & SQL概述

2 PAC学习框架（page 17 18）

EGroupWare多个输入验证漏洞

Prometheus监控实战第四章监控主机和容器

监控主机和容器

node_export 监控

下载安装

端口号

收集列表

textfile collector

systemd收集器

抓取

过滤收集器

监控docker容器

抓取的生命周期

标签

标签分类

重新标记

删除指标

替换指标

删除标签

USE方法

CPU使用率

cpu饱和率

内存使用率

内存饱和度

磁盘使用率

服务状态

metadata 指标

查询持久性

Gaim多个缓冲区溢出安全漏洞

iOS 内存对齐原理分析

Debian /usr/bin/suidexec漏洞

Flink Table API & SQL概述

2 PAC学习框架 （page 17 18）

EGroupWare多个输入验证漏洞

Prometheus监控实战 第四章 监控主机和容器

监控主机和容器

node_export 监控

下载安装

端口号

收集列表

textfile collector

systemd收集器

抓取

过滤收集器

监控docker容器

抓取的生命周期

标签

标签分类

重新标记

删除指标

替换指标

删除标签

USE方法

CPU使用率

cpu饱和率

内存使用率

内存饱和度

磁盘使用率

服务状态

metadata 指标

查询持久性

2 PAC学习框架（page 17 18）

Prometheus监控实战第四章监控主机和容器