成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

監控系統自監控怎么做?

安全 應用安全
net 和 procnum 這兩個插件配合,理論上一定可以發現進程掛掉的情況,如此一來,嚴重的情況 catpaw 就可以發現了,不嚴重的情況,監控系統自身的指標就可以發現了,齊活。

問題

監控系統用于監控其他的系統、基礎設施,絕對是 P0 級的服務,那監控系統的自監控應該怎么做呢?如果自己監控自己,有些組件掛掉了難免循環依賴,如果單獨搞一套新的監控系統來監控當前服役的監控系統,又搞得有些過于復雜。本文我們來探討一下監控系統的自監控應該怎么做。

解決方案:自身指標

首先,監控系統自身是會暴露監控指標的,比如 Prometheus、VictoriaMetrics、Nightingale,都通過 /metrics 接口暴露了自身的監控指標,這些指標通過監控系統自身的采集機制去采集就好,相關數據的歷史趨勢圖、告警規則,也在監控系統自身配置好,只要自身模塊沒有掛掉,或者沒有全部掛掉,相關數據基本都可以正常使用。

比如 Nightingale 的自身監控指標,可以通過 categraf 的 input.prometheus 插件來采集,即 conf/input.prometheus/prometheus.toml 的內容如下:

[[instances]]
urls = [
    "http://localhost:17000/metrics"
]

localhost:17000 換成你的 Nightingale 的地址即可。然后導入內置儀表盤:https://github.com/ccfos/nightingale/tree/main/integrations/n9e/dashboards,即可看到 Nightingale 自身的監控指標了。

解決方案:存活監控

如果監控系統同時有多個模塊故障,此時自身指標可能都采集不到了,告警引擎可能也有故障,此時就沒法通過自身指標來監控了,此時就需要一個外掛的小監控系統來監控這類嚴重情況了。而且,告警通道盡量也不要復用之前的通道,因為通道可能也會故障。

我的建議是采用 catpaw + FlashDuty 來搞這個需求。FlashDuty 是外網的 SaaS 服務,只要公網出口是好的,就能提供監控服務,而且無需我們維護,使用免費套餐都夠用,畢竟監控系統也不會經常掛。。。

catpaw 最新版本是 v0.7.0,已經提供了 exec(執行腳本的插件)、filechange(文件變化監控的插件)、http(HTTP探測的插件)、journaltail(系統日志異常檢測插件)、mtime(遞歸判斷文件變化的插件)、net(TCP、UDP探測的插件)、ping(PING插件)、procnum(進程數量監控插件)、sfilter(自定義腳本插件,相比exec插件更簡單,匹配腳本輸出) 等多個監控插件,我們可以使用 net 插件來探測監控系統的各個組件的存活情況,比如下面是 net 插件的配置樣例:

[[instances]]
targets = [
#     "127.0.0.1:22",
#     "localhost:6379",
#     ":9090"
]

## Set timeout (default 5 seconds)
# timeout = "5s"

## Set read timeout (only used if expecting a response)
# read_timeout = "5s"

# # Concurrent requests to make per instance
# concurrency = 10

# # gather interval
# interval = "30s"

# # Optional append labels
# labels = { env="production", team="devops" }

## Protocol, must be "tcp" or "udp"
## NOTE: because the "udp" protocol does not respond to requests, it requires
## a send/expect string pair (see below).
# protocol = "tcp"

## The following options are required for UDP checks. For TCP, they are
## optional. The plugin will send the given string to the server and then
## expect to receive the given 'expect' string back.
## string sent to the server
# send = "ssh"
## expected string in answer
# expect = "ssh"

[instances.alerting]
## Enable alerting or not
enabled = true
## Same functionality as Prometheus keyword 'for'
for_duration = 0
## Minimum interval duration between notifications
repeat_interval = "5m"
## Maximum number of notifications
repeat_number = 3
## Whether notify recovery event
recovery_notification = true
## Choice: Critical, Warning, Info
default_severity = "Warning"

如果目標 IP:Port 連不上了,就會報警,報警事件的具體推送策略在 [instances.alerting] 配置段配置。

如果監控系統的某個模塊,不監聽端口,沒法監控端口存活,可以使用進程數量監控,即 procnum 插件,相關配置樣例如下:

[[instances]]
# # executable name (ie, pgrep <search_exec_substring>)
# search_exec_substring = ""

# # pattern as argument for pgrep (ie, pgrep -f <search_cmdline_substring>)
search_cmdline_substring = ""

# # windows service name
# search_win_service = ""

alert_if_num_lt = 1
check = "進程存活檢測(進程數量檢測)"
interval = "30s"

[instances.alerting]
## Enable alerting or not
enabled = true
## Same functionality as Prometheus keyword 'for'
for_duration = 0
## Minimum interval duration between notifications
repeat_interval = "5m"
## Maximum number of notifications
repeat_number = 3
## Whether notify recovery event
recovery_notification = true
## Choice: Critical, Warning, Info
default_severity = "Warning"

net 和 procnum 這兩個插件配合,理論上一定可以發現進程掛掉的情況,如此一來,嚴重的情況 catpaw 就可以發現了,不嚴重的情況,監控系統自身的指標就可以發現了,齊活。

責任編輯:武曉燕 來源: SRETalk
相關推薦

2024-03-14 11:48:44

系統監控指標分布式

2010-05-26 12:57:59

linux 系統監控

2019-10-22 08:47:32

HTTP監控系統

2020-09-21 06:45:48

監控延遲消息隊列

2022-03-10 11:25:51

InnoDB優化

2023-09-27 22:44:18

數據遷移數據庫

2024-05-06 08:31:28

前端監控JavaScript

2024-10-06 13:01:44

2022-08-29 08:08:58

SQLOracleCPU

2020-12-30 08:09:46

運維Prometheus 監控

2021-08-10 09:17:02

動環監控機房監控數據中心

2016-09-21 10:18:26

阿里Dubbo性能測試

2013-09-26 21:50:11

RIILIT綜合監控

2018-09-17 08:36:59

機房監控配電

2019-10-09 10:06:48

容器監控軟件

2020-12-29 10:45:22

運維Prometheus-監控

2022-01-05 08:29:22

監控Prometheus Post

2015-10-19 10:30:44

物聯網營銷

2011-07-05 17:05:15

CIO

2023-12-14 17:21:28

前端性能優化
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人免费网站www网站高清 | 九九亚洲 | 久久99国产精品久久99果冻传媒 | 国产一区二区在线免费 | 欧美日本久久 | 国产精品国产成人国产三级 | 国产乱码精品一区二区三区忘忧草 | 日本不卡一区 | 免费观看一级毛片 | 国产免费高清 | 午夜视频一区二区 | 激情91| 国产黄色免费网站 | 97偷拍视频| 国产97碰免费视频 | 亚洲国产精品第一区二区 | 成人av看片| www.888www看片| 91福利在线观看 | 精品国产一区二区三区成人影院 | 欧美日韩一区二区在线观看 | 久草免费在线视频 | aaaa网站 | 日韩欧美精品在线 | 欧美舔穴| 日韩欧美一区二区三区 | 九九热这里只有精品在线观看 | 亚洲免费人成在线视频观看 | 中文字幕加勒比 | 日韩福利在线观看 | 黄色成人在线网站 | 成人一级黄色毛片 | 国产免费一区二区三区 | 亚洲一区二区精品视频在线观看 | 亚洲精品av在线 | 亚洲免费视频播放 | 91中文字幕在线观看 | 中文字幕韩在线第一页 | 精品国产欧美日韩不卡在线观看 | 国产一区二区三区四 | 伊人网在线看 |