CreCloud云網管對大型網絡信息系統的監控
1 概述
隨著社會發展,帶寬的增加和設備成本的降低以及虛擬化技術的普及,目前國內外的大型企業、政府機構的IT系統架構都發生了變化。
設備虛擬化:云計算可以把服務器和資源有效整合,將CPU、內存、磁盤等資源虛擬化,某個IP地址后面跟隨的只是一個虛擬機,而不像原來代表的是一臺真實的機器。通過虛擬化對資源進行整合,提高了設備的使用效率,但同時在不增加設備的情況下,操作系統也會越來越多,管理任務量和復雜度也會增加。
信息系統設計和部署更加抽象:由于通過云計算將負載均攤、壓力分散,系統設計人員不用過分關心業務部署具體位置、單臺設備負載是否過高,能否承受業務壓力這些問題,而是把注意力放在如何設計更能滿足用戶需求、可用性上。
信息系統的規模不斷增大:隨著信息技術的不斷發展和應用,信息系統在政府、企業使用的深度和廣度也在不斷增大,這也就造成信息系統的規模不斷擴大,系統的用戶規模可能達到十萬,百萬,系統部署的設備超過萬臺。
企業及政府專網數量、規模不斷增大:隨著信息化的不斷深入,企業即政府建設了很多大型集中信息系統,為了保證數據穩定、可靠、安全的傳輸,國內一些部委、大型企業都在建立和擴大內部專網,范圍從省級擴展到全國。
監控集中、管理分層:為了保證IT系統的正常運行,特別是在整個廣域網的正常運行,監控是必不可少的,由于地方的技術力量有限,監控中心一般放在總部,總部集中監測性能、解決重大故障,地方一線工程師主要是處理一些簡單問題。
IT系統規模越來越大,系統架構越來越復雜、使用范圍越來大,對IT系統的可靠性就要求越高,硬件、軟件、網絡任何故障運維人員在***時間就要掌握以便進行快速處理,降低系統癱瘓的可能性,好的監控就成為運維的首要條件
2 傳統監測架構
國際上大規模網絡監測的主要廠商有HP、IBM、CA、BMC。它們的產品都是非常成熟的,有幾十年歷史了。
最開始網絡規模不大的時候,都是一套網管系統安裝在一臺大型機上,監控所有服務器、網絡設備、應用,目前所有小型網管軟件還是這套監測架構。
隨著網絡規模的擴大,一臺計算機的計算容量有限,大型網管系統一般都采用二級架構,在每個地方IT中心部署一套監控軟件,在總部部署一套管理端,地方中心的監控軟件將配置信息和一些重要的報警信息同步到總部管理端。
這種架構有一些明顯缺點:首先是管理復雜,監控軟件部署很多套,每個地方監控中心都需要有監控軟件維護工程師對監控軟件進行維護,由于培訓、支持很難到位,人員變動等多種原因造成地方維護工程師對軟件不會有很深入的了解,產品使用困難,因此產品使用不理想的情況很多。
其次是容易產生單點故障,每個地方中心部署一套監控軟件,當監控軟件本身出現故障時,該地方的系統就沒有監控了,故障也無從發現。特別是監控軟件屬于基礎維護軟件,在日常運維工作中,如果沒有報警產生,網管人員也不會特別注意沒有故障報警的原因,到底是因為監控軟件本身出現故障無法監測呢,還是系統工作正常沒有報警,只有當故障發生后才發現原來網絡監控軟件出現故障,已經無法完成監測任務了。
再次是架構復雜,當下級監測端的被監測設備發生變化,被增加、刪除修改后,都需要將新的配置同步到上層管理端,同步過程比較復雜,也很難做到實時同步,造成上層管理端和下層監測端數據不一致,容易導致錯誤。
***是擴展性差,資源分配不均,隨著IT系統規模的擴大,當監測端的監測容量滿足不了需求的時候,需要重新安裝一套監測端,包括數據庫、報警等多種應用,還需要同步到上層管理端,非常復雜。而且不同地方的IT資源數量不同,會造成某些地區監控軟件壓力非常大,而另一個地方監控軟件的資源閑置。
3 云監控的技術和方案
為解決大型企業和政府的IT業務監控問題,將目前***的云計算技術應用到網絡管理領域。MXsoft(北京美信時代科技有限公司)設計了一套CreCloud云監控解決方案。
CCU中央控制器是控制中心,它負責調度監控任務,根據監測設備的數量和監測內容將監控任務分發給監測服務器,并檢測監測服務器的工作狀態,一旦某臺監測服務器出現故障立刻將監測任務轉移到其他監測服務器上。
監測服務器主要任務是獲取設備監測信息。隨著監控規模的增加,它可以線性增加,自動注冊到CCU中央控制器,中央控制器就會分配監測任務給它。
云網管架構的優勢如下:首先是部署實施簡單,只要在總部部署一套系統即可完成整個廣域網的監測,二級單位和三級單位無需部署監控系統,他們只需登錄總系統,將被監測設備和監測指標的信息、報警條件設置好就可以。所有日常維護都有總部網管人員負責。
其次是負載均衡,監測云中的服務器根據數量和計算能力動態承擔各自的監測任務,當數量和計算能力發生變化時,通過自動調節機制去重新調整各自的監測任務量,不會出現二級架構中的某臺監測服務器忙,某臺監測服務器閑的情況。
再次是可靠的雙機熱備功能。監測服務器之前互相備份,如果監測服務器云中有服務器宕機,這些服務器的監測任務馬上就會被重新分配到其它正常運行的服務器上,保證了監控的連續性。CCU中央控制器也可以組成高效的“主”—“備”模式,“主”服務器和“備”服務器之間通過“心跳線”技術實時關聯,一旦主控制服務器宕機,備份服務器馬上啟動執行任務
4 案例試驗
目前在某企業的大型信息系統項目中部署了一套美信的CreCloud云網管解決方案。該系統的一個顯著特點就是服務器數量大、分布廣,系統終端數量超過5萬臺,因此要求解決方案能夠實現大規模分布式監控。
經過比選,選擇CreCloud云網管解決方案進行部署,系統由2臺CCU服務器,7臺監測服務器,監測全國幾萬臺的服務器。
系統部屬架構圖
總部管理人員維護監測系統,配置總部關心的設備和應用系統的監測,接收大范圍故障的告警。省級和地方運維人員只被分配本地服務器、網絡設備、應用的配置瀏覽和報警權限。
通過該云網管項目的實施該公司獲取到良好收益:首先是部署實施快,傳統大型網管項目需要到各地出差實施、培訓,工期3個月到半年,而該項目從部署的第二周就完成對各終端的鏈路監控和報警,隨著監測規模的逐漸增加線性擴容。
其次是通觀全局,了解細節。由于全國的各終端服務器、網絡、軟件運行信息都在一套系統中,既可以了解到該系統在全國的整體運行狀況,也可以了解到某個終端的某臺服務器具體運行狀況。
再次是擴展性好,該系統終端的規模還在增加過程中,而且其他相關系統的監控將來也會增加到該系統中,在擴展的時候只需增加監測服務器就可以,非常方便。
5 未來趨勢
隨著未來企業和政府規模越來越大,監控的規模也越來越大,云網管也將越來越普及。 云網管未來將應用在各個重要領域,大型網游、門戶網站、證券交易、信息系統、企業網都是該監控的潛在用戶。
網絡監控的穩定性和可靠性要求越來越高。云網管必須是一個完整的解決方案,而不是一個簡單軟件,能夠保證這個系統7*24小時不間斷運行,沒有單點故障。