網絡焦點功能 鷹眼拓撲告別網絡“誤判”
南非世界杯的大幕已經落下,在736名球員和數十億球迷心中,有兩樣東西將讓人久久不能忘懷:一是鬧心的“嗚嗚祖啦”;二是足球世界中永遠不消失的話題“裁判誤判”。誤判的產生,在生活中、企業管理中、網絡運維中一樣存在,它可能改變我們人生的軌跡、也可能將附著在網絡上的業務體系陷入萬劫不復的地獄。
摩卡軟件在最新發布的Mocha BSM 7.5.0中全面擴容了網絡焦點(Network Focus)功能的技術覆蓋面,延伸至網絡中的每個對象,不但為網絡運維實現了7*24小時的自動監控部署,更增添了 “故障回放”的特性,如同在網絡中安插“鷹眼”設備,全面減少了因為手工監控運維所帶來的誤判結果產生。
網絡運維為何也需加入鷹眼功能
本屆世界杯中的英德大戰,若是蘭帕德的進球沒有被漏判,最后可能也不至于英國的球門被打成篩子一般。但就是這樣的一個錯誤判罰導致了英格蘭隊全場被動,最終以恥辱的比分敗北回家,英格蘭球員四年來的努力也因此化為烏有。如果說,1966年的“幽靈進球”成為了世界足球史上一樁永恒的懸案,此次國際足聯“禁止在球場大屏幕回放本場比賽錄像” 的決定,倒是真讓人匪夷所思了。如今的科技水平完全可以做到這一點,在網球和擊劍運動中早引入了“鷹眼”技術,這種十分精密的即時回放系統,由8個或10個高速攝像頭、4臺電腦和大屏幕組成,它是保障裁判判罰精確性的得力輔助工具。
在回味世界杯的同時,我們不由得想起了網絡管理和系統運維管理中也大量存在的“誤判”。網絡故障分為物理故障和邏輯故障,物理故障是網絡連接出現物理上的損壞(如網線斷或交換機故障),而邏輯故障單獨依靠手動排除,或者利用ICMP包(Ping命令)的回應數值斷定是解決不了的。例如,業務部門的員工反映業務系統響應緩慢,IT人員可能會判定的路線有:服務器中毒、客戶端程序故障、網絡擁堵、服務器負載過大、中間件連接錯誤、數據庫優化失敗……如果依靠運維經驗,我們甚至需要從最底層(物理層)開始往上排查,每條路線都走一遍之后,我們還需要從漫如汪洋的日志中尋找蛛絲馬跡。即使最后成功地消除了故障影響,而第一步操作中就掩藏的主觀誤導也將大量延遲修復的時間,因此產生的業務系統的停滯對企業的影響也極大。
結合各大生產網絡和互聯網企業的特點,以及現階段IT架構運維的常用功能,摩卡軟件產品總監侯軍認為:“不同架構和行業的網絡中運維都存在著各種變數,但綜合起來分析,在基于業務體系的運維管理中,任何一個網絡都需要最基本的三種特殊功能支撐,它們是‘全景地圖’、‘放大鏡’和‘回放器’,對應起來就是拓撲管理、資源管理和故障分析。對應球場上的鷹眼功能,這三種功能分別可以解決的就是邊裁要覆蓋球場每個角落、每個球員實時追蹤,出現進球和犯規時在大屏幕上立即回放。”
熟悉比賽規則 當好網絡的“法官”
決賽選擇了英格蘭光頭裁判韋伯最為恰當,球場上的裁判常稱作“法官”,他們擁有著至高無上的權力,擁有決定一支球隊命運的權力。而網絡中“裁判”要做的第一件事情就是將企業的業務流程熟記于心,同時要各司其職。在Mocha BSM 7.5.0的Network Focus中,以業務主流程為基礎,將使用者劃分為:實施工程師、用戶工程師、用戶主任、用戶領導,這四種角色,每個角色都以從自己的路線圖進入到業務流程中去,并且四種角色可以通過業務視圖清晰的獲取需要的“職能守則”。
在部署Mocha Network Focus之后,將自動收集整個網絡的全景布局,形成獨有的管理拓撲。用戶可以在核心、接入、終端面板上點擊“鷹眼按鈕”切換設備的展現情況,按照路線圖或定位點監控追蹤對象。通過業務主體對象的邏輯拓撲圖和物理拓撲圖的對應,利用智能的診斷工具和收集工具,包括業務對象的IP分布、CPU等主要監控參數,點擊故障面板上“分析”工具即可自動分析故障的原因,快速定位故障點,并且系統將嘗試自動修復功能。由于采用立體資源展現,所有業務對象拓撲中的基本信息、狀態、快照,物理位置,組結點信息等等,都可以自動關聯。另外,Network Focus還增加自動告警功能的基礎上,增加了針對機房的巡檢功能。通過維護機房的巡檢模板配置,實時告警平臺將列出最近20條告警信息,而1周之內的設備告警,NTA(網絡流量分析)告警、Syslog告警、鏈路告警、IP-MAC告警等都可以進行“歷史回放”,形成業務體系健康程度的巡檢統計報表。
鷹眼將徹底消除“業務承載層”的誤判
與幾年前相比,企業對IT的需求已經截然不同,隨著企業業務的發展和 IT 基礎設施的不斷擴張,IT 管理正在從側重資源管理向側重于業務和服務管理演進。相應的,IT 監控也從資源監控向業務監控轉變,因此構建一個強健的 IT 運維監控管理體系對企業信息化的發展至關重要。之前我們可能忽視了網絡之上的邏輯業務的管理,如此一來,就造成了網絡運維和業務管理之間的脫節。經過幾年來ITIL和BSM(業務服務管理系統)概念的普及和認可,很多企業之前對于網絡管理方向的“誤判”得到了修正,如今我們定義的BSM目標的方向沒有錯,這是不是意味底層監控就不重要了呢?答案是否定的。
我們知道,如果要展現業務的健康狀況,那么承載各種業務的硬件設施和服務軟件產品信息就必須要首先“精準”,如果這些業務承載層的對象報警信息產生誤導,何談業務管理呢?以現在很多企業中的核心業務承載層為例,雙機熱備(HA)主機和負載群集系統的監控很少能有IT運維工具監管起來。Mocha BSM 7.5.0升級版本可以對集群性能整體進行監管,例如:反映集群服務的總體運行狀況、反映心跳線中數據檢測、反映可能出現服務器切換的響應時間,并根據指定的邏輯與給定閥值進行比較告警等等,這些都是功能的增加,都是業務為主體模型開發的,其中都蘊含了綜合資源監控,不遺漏任何死角的研發思路。
通過以上的分析,不難發現,底層的監控依然重要,我們在BSM中倡導的不是要拋棄底層數據的監控管理,反而應對基礎信息的收集加重砝碼,避免與業務信息脫節造成的誤判,這才不會導致把業務管理建成一個無法欣賞的“空中花園”。