zabbix监控
一:为什么要监控
- 首先我们从以下几点分析监控的目的?
1.1运维职责
- 1.保障企业数据的安全的可靠
- 2.为客户端提供7*24小时服务(保证7*24小时提供访问)
- 3.不断提升用户体验
1.2网站的可用性
所谓网站可用性(availability)也即网站正常运行时间的百分比,业界用 N 个9 来量化可用性, 最常说的就是类似 “4个9(也就是99.99%)” 的可用性。
描述 | 通俗叫法 | 可用性级别 | 年度停机时间 |
基本可用性 | 2个9 | 99% | 87.6小时 |
较高可用性 | 3个9 | 99.9% | 8.8小时 |
具有故障自动恢复能力的可用性 | 4个9 | 99.99% | 53分钟 |
极高可用性 | 5个9 | 99.999% | 5分钟 |
1个9:(1-90%)*365=36.5天,表示该软件系统在连续运行1年时间里最多可能的业务中断时间是36.5天 2个9:(1-99%)*365=3.65天 , 表示该软件系统在连续运行1年时间里最多可能的业务中断时间是3.65天 3个9:(1-99.9%)*365*24=8.76小时,表示该软件系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。 4个9:(1-99.99%)*365*24=0.876小时=52.6分钟,表示该软件系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。 5个9:(1-99.999%)*365*24*60=5.26分钟,表示该软件系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。 6个9:(1-99.9999%)*365*24*60*60=31秒, 示该软件系统在连续运行1年时间里最多可能的业务中断时间是31秒
1.3常用的系统监控命令
1.31查看cpu相关命令
lscpu、uptime、top、htop vmstat mpstat
#常用的几个cpu相关命令: [root@node1 ~]# lscpu Architecture: x86_64CPU op-mode(s): 32-bit, 64-bitByte Order: Little EndianCPU(s): 4On-line CPU(s) list: 0-3Thread(s) per core: 1Core(s) per socket: 4 Socket(s): 1 NUMA node(s): 1 Vendor ID: GenuineIntel CPU family: 6 Model: 79 Model name: Intel(R) Xeon(R) CPU E5-26xx v4 Stepping: 1 CPU MHz: 2394.446 BogoMIPS: 4788.89 Hypervisor vendor: KVM Virtualization type: full L1d cache: 32K # 这两个都是一级缓存 L1i cache: 32K L2 cache: 4096K #二级缓存 NUMA node0 CPU(s): 0-3
[root@node1 ~]# toptop - 15:50:05 up 14 days, 3:45, 2 users, load average: 0.00, 0.01, 0.05Tasks: 87 total, 2 running, 85 sleeping, 0 stopped, 0 zombie%Cpu(s): 0.5 us, 0.0 sy, 0.0 ni, 99.5 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 stKiB Mem : 8010528 total, 330152 free, 738124 used, 6942252 buff/cacheKiB Swap: 0 total, 0 free, 0 used. 6945896 avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 1 root 20 0 188596 3728 2424 S 0.0 0.0 0:17.39 systemd 2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd 3 root 20 0 0 0 0 S 0.0 0.0 0:03.80 ksoftirqd/0 5 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/0:0H 6 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kworker/u8:0 7 root rt 0 0 0 0 S 0.0 0.0 0:04.76 migration/0 8 root 20 0 0 0 0 S 0.0 0.0 0:00.00 rcu_bh 9 root 20 0 0 0 0 S 0.0 0.0 4:05.34 rcu_sched
#说明
task: 系统多少个进程
cpu 使用率 0.0%us, 用户使用的 0.3%sy 系统使用改的 99.7%id 系统空闲
mem 内存的使用率
swap
top 命令默认是通过cpu使用率来排序的
常用的参数
z 加颜色
x排序列高亮
shift +> 有毅力排序
shift +p #cpu排序
shift +m #mem排序 内存
[root@m01 tools]# yum -y install htophtop系统默认没有装,我们需要通过yum来下载安装,安装依赖与epel源。htop 支持鼠标可以操作 可以删除等
1.32内存相关命令
free
-h 人类可读-m 使用兆显示-g 使用G方式显示
[root@node1 ~]# free -h
total used free shared buff/cache availableMem: 7.6G 720M 313M 376K 6.6G 6.6GSwap: 0B 0B 0B[root@node1 ~]# free -mtotal used free shared buff/cache availableMem: 7822 721 313 0 6788 6782Swap: 0 0 0[root@node1 ~]# free -gtotal used free shared buff/cache availableMem: 7 0 0 0 6 6Swap: 0 0 01.33磁盘相关的命令
df dd iotop
hdparm -t /dev/sda #用来测试磁盘的读写速度
[root@node1 ~]# df -hFilesystem Size Used Avail Use% Mounted on/dev/vda1 50G 22G 25G 47% /devtmpfs 3.9G 0 3.9G 0% /devtmpfs 3.9G 0 3.9G 0% /dev/shmtmpfs 3.9G 372K 3.9G 1% /runtmpfs 3.9G 0 3.9G 0% /sys/fs/cgrouptmpfs 783M 0 783M 0% /run/user/0 #系统磁盘使用率达到百分百,但是还有一些剩余空间,是留给我们超级管理员进行操作 #主要监控磁盘的使用率大小
[root@node1 ~]# dd if=/dev/zero of=./test,data bs=100M count=22+0 records in2+0 records out209715200 bytes (210 MB) copied, 0.330058 s, 635 MB/s #用来测试我们磁盘的io写入速度 if input 从哪里输入 of output 输出
[root@node1 ~]# iotopTotal DISK READ : 0.00 B/s | Total DISK WRITE : 27.62 K/sActual DISK READ: 0.00 B/s | Actual DISK WRITE: 102.59 K/s TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND 286 be/3 root 0.00 B/s 15.78 K/s 0.00 % 0.09 % [jbd2/vda1-8]28035 be/4 root 0.00 B/s 3.95 K/s 0.00 % 0.00 % systemd-journald28049 be/4 root 0.00 B/s 3.95 K/s 0.00 % 0.00 % rsyslogd -n [rs:main Q:Reg] 7093 be/3 root 0.00 B/s 3.95 K/s 0.00 % 0.00 % auditd 1 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % systemd --switched-root --system --deserialize 21 2 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [kthreadd] 3 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [ksoftirqd/0] 1540 be/4 mysql 0.00 B/s 0.00 B/s 0.00 % 0.00 % mysqld --basedir=/usr/local/mysql-5.6.38 --data~-pid-file=/usr/local/mysql-5.6.38/data/node1.pid 5 be/0 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [kworker/0:0H] 6 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % [kworker/u8:0]
#io 越小最好
#io大 就占用的比较大
1.34网络监控命令
iftop nethogs
iftop 监控主机间流量 -i 指定监控网卡nethogs 监控进程流量
小总结:
- 监控一切需要监控的东西,只要能够想到,可以通过命令实现都能监控
- 监控的范畴