10分鐘在K8s中部署目前最熱門的監控系統
前言
K8s本身不包含內置的監控工具,所以市場上有不少這樣監控工具來填補這一空白,但是沒有一個監控工具有k8s全家桶使用率高,因為它由 CNCF維護,已經成為了監控 k8s 集群的事實上的行業標準,下面介紹一下如何在K8s快速部署一個kube-prometheus項目,來實現對k8s 相關資源監控與告警
kube-prometheus介紹
圖片
kube-prometheus是一個完整的監控解決方案,可以輕松地將其部署到 Kubernetes 集群中,它包括以下內容
1. Prometheus 用于度量收集
2. Alertmanager 用于指標警報和通知
3. Grafana 用于圖形用戶界面
4. 一組特定于K8s的exporters,用作指標收集代理
5. 使用 Prometheus Operator 來簡化和自動化該堆棧的設置
快速安裝
在將 kube-prometheus部署到 k8s 集群之前,先確認與你的 k8s匹配的是版本,然后在下載
圖片
下載
執行kubectl version 查看k8s 版本,下載對應版本
圖片
由于本人的 k8s 版本為 v1.25.13,所以下載kube-prometheus-0.12.0
wget https://github.com/prometheus-operator/kube-prometheus/archive/refs/tags/v0.12.0.zip
解壓
tar -zxvf kube-prometheus-0.12.0.zip & cd kube-prometheus-0.12.0
修改鏡像地址
由于網絡原因,kube-state-metrics和prometheus-adapter鏡像地址,在國內無法下載,因此需要修改以下地址:
vi manifests/kubeStateMetrics-deployment.yaml
image: bitnami/kube-state-metrics:2.7.0
vi manifests/prometheusAdapter-deployment.yaml
image: cloveropen/prometheus-adapter:v0.10.0
訪問配置
為了可以從外部訪問 Prometheus、Grafana、Alertmanager,需要修改 service 類型為 NodePort 類型。
修改 Prometheus 的 service
vi manifests/prometheus-service.yaml
# 設置對外訪問端口,增加如下兩行
type: NodePort
nodePort: 31922
圖片
修改 Grafana 的 service
vi manifests/grafana-service.yaml
# 設置對外訪問端口,增加如下兩行
type: NodePort
nodePort: 30300
圖片
修改 Alertmanager 的 service
vi manifests/alertmanager-service.yaml
# 設置對外訪問端口,增加如下兩行
type: NodePort
nodePort: 30200
圖片
安裝
在kube-prometheus-0.12.0目錄下執行以下命令進行安裝
kubectl apply --server-side -f manifests/setup
kubectl apply -f manifests/
執行完成以后,訪問monitoring 空間,查看部署狀態,可以看到啟動成功,并且都是高可用部署
kubectl get pods -n monitoring
圖片
驗證
Prometheus驗證
選一臺 node 節點ip+31922,即可訪問prometheus的 Web UI
圖片
Alertmanager驗證
選一臺 node 節點ip+30200,即可訪問alertmanager的 Web UI,可以看到有一些報警,由于alertmanager的報警配置比較復雜同時對國內的通訊工具支持有限,因此可以使用PrometheusAlert進行告警配置
圖片
Grafana驗證
選一臺 node 節點ip+30300,即可訪問grafana的 Web UI,默認用戶名密碼:admin/admin,登錄會提示更改密碼,登錄以后,可以看到已經內置了不少監控大盤
集群資源監控
圖片
節點資源監控,可以看到當前節點部署了哪些 pod,以及對應的負載是多少
圖片
卸載
執行以下命令即可卸載相關組件
kubectl delete --ignore-not-found=true -f manifests/ -f manifests/setup
存在的問題
持久存儲
以上我們安裝未使用持久化存儲,所以如果Prometheus或者Grafana重啟,那么采集的數據和自定義的儀表盤等數據會丟失,因此如果考慮在生產環境使用,需要把數據使用存儲卷掛載至文件系統。
Grafana顯示時間問題
由于grafana默認時區是UTC,比中國時間慢了8小時,很不便于日常監控查看,需要進行修改,如下圖
圖片
因此需要調整成中國時間,utc+8,替換grafana-dashboardDefinitions.yaml
sed -i '' 's/utc/utc+8/g' grafana-dashboardDefinitions.yaml
sed -i '' 's/UTC/UTC+8/g' grafana-dashboardDefinitions.yaml
grep -i timezone grafana-dashboardDefinitions.yaml