運維經驗分享:當 Cacti 遭遇大流量
最近在河南項目的幾臺Windows流媒體服務器流量使用很高,需要監控每天的帶寬使用情況,并根據具體的情況做相應的調整!前期部署監控的系統的時候網絡流量方面采用Cacti統一監控,服務方面采用Nagios統一監控并報警!實際的使用過程中,流媒體帶寬很快就超過了100Mb,Cacti出圖方面的信息極為不準確,Google一番,類似的情況很多,主要反應為Snmp 32位的問題,折騰一番后,問題依舊!
從圖片上看,改為In/Out bits(64-bit Counters)后,就直接不出圖了,In/Out bits則出圖,但數據完全不對!隨便看下服務器的帶寬使用,任何時刻都超過100Mb。
于是繼續排查,發現貌似windows系統本身不支持snmp 64bit counters,參考請看這里:
于是改用Nagios直接監控網卡的計數器數據:
- [root@bak ~]# /usr/local/nagios/libexec/check_nt -H "ip address" -p 12489 -v COUNTER -l '\Network Interface(Broadcom NetXtreme Gigabit Ethernet)\Bytes Total/sec',"Total_Bytes/s %f" -w 78643200 -c 85196800
- Total_Bytes/s 21052800.000000 | 'Total_Bytes/s %f'=21052800.000000%;78643200.000000;85196800.000000;
發現數據大致正確,(21052800/1024/1024)*8 = 160Mb,于是直接寫入配置文件,使用check_nrpe插件調用:
- define service{
- use local-service
- host_name ip address
- service_description Network traffic
- check_command check_nt!COUNTER!-l '\\Network Interface(Broadcom NetXtreme Gigabit Ethernet)\\Bytes Total/sec',"Total_Bytes/s %f" -w 78643200 -c 85196800
- notifications_enabled 1 }