服務器監控百家談:趨勢分析是關鍵
原創【51CTO 9月7日外電頭條】為了對設備做出某些調整,解決某些當前的問題,或者為了劃分出修復和更新換代在預算方面的優先級,管理員們必須要對他們的設備的運行的情況進行評估。因為數據中心的設備主要由服務器組成,所以,不言而喻,對于那些需要隨時關注數據中心的資產的管理員們來說,服務器監控是一個關鍵性的領域。
51CTO推薦專題:Linux監控工具的展覽館
但是,監控并不只是捕獲幾個參數數據和當警告發生的時候做出響應那么簡單。管理員們必須要確保服務器監控是有效的,并且可以提供相關的,有用的信息。這項工作的關鍵是盡量緩解一些可能會出現的問題,這些問題可能會干擾服務器的監控的順利進行。
使用趨勢
和服務器的監控相關的一個問題是,許多工具都提供了大量的數據,但是并沒有提供太多的可用信息。沒有可用的信息,管理員們不可不浪費大量的寶貴時間從一堆“雜亂無章的數據”中分離出和自己相關的一些信息。
Zenoss公司社區部門的副總裁Mark Hinkle說:“解決這個服務器監控的問題的關鍵是趨勢。只通過服務器的監控工具來處理‘故障-修復’情況的管理員們,并不須要影響最終用戶。監控磁盤的使用情況可以在故障發生以前看出容量存在問題。例如,一些監控解決方案提供了趨勢分析的工具,你可以通過一些使用模式來預測出哪個存儲容量的上限即將到達。”
LogicMonitor的創始人兼CEO Steve Francis說:“許多系統都只依靠‘基于閥值’的監控,幾乎沒有提供任何趨勢分析的功能。”Francis接著強調:“被監控的每一件事情都應該被趨勢化。實際上,為了提供一些幫助解決問題的信息,許多事情都應該被趨勢化,而不是發出警告。”Francis舉了一個新的應用程序發布的例子:如果應用程序執行的比較慢,然后觸發了一個監控警告,通過這個監控警告,管理員們應該可以判斷這個新版本是否導致了應用程序性能的突然降低,或者這個應用程序是否隨著負載的增加而逐漸變慢。
選擇合適的監控指標/工具
管理員們和數據中心的工作人員都很清楚這樣一個事實:監控工具可能會把用戶淹沒在數據的海洋中。在這些數據中,有些是有用的,有些可能并沒有什么用。要解決這個問題,不僅僅需要趨勢,還需要選擇合適的監控指標。
Logicalis公司的外包業務主管Mike Alley說:“對于高效率的生產服務器管理來說,主要需要關注的事情是如何確保監控工具只報告關鍵性的指標,這些指標可以提供和服務器的健康程度關系最密切的一些信息。”Alley接著說:“大多數的工具都會產生很多的無關事件,這會把監視控制臺淹沒在事件的海洋里,這導致的直接后果是:用戶很難對關鍵性的事件引起注意。”
他補充道:“你可以從和CPU,內存,網絡和存儲相關的一些性能指標開始監控,它們都是很不錯的出發點。管理員們還應該監控和服務器,系統日志,系統進程相關的硬件級的管理產品探測到的一些事件。管理員們應該定期檢查監控工具報告的事件,然后篩選出那些事件會對用戶造成影響,哪些事件是不需要理睬的。當然,那些會對用戶造成影響,但是并沒有被監控工具探測到的事件也應該檢查,雖然監控工具并沒有探測到這個事件,但是和這個事件相關的特定的指標應該已經被監視到了。”
Uptime Software的解決方案架構師Kenneth Cheung說:“各種工具都會對很多指標進行監控,這很正常。關鍵是要找到這樣一個監控解決方案,它可以快速地把故障和事故與相關的設備和應用程序對應起來。”另外,他還補充道:“監控工具應該指出哪些問題需要優先處理,哪些設備設備需要優先關注。有了這樣的功能,管理員們可以立即判斷出哪個問題需要立刻引起注意。”
自動化
如果一個監控工具不通過自動化的方式來簡化警告的處理流程,而只能通過人工的方式來處理,這會浪費很多的時間,而且還可能會由于一個故障處理的不及時讓情況變得更糟。這點在51CTO之前發布的網站運維之道 監控與報警機制一文中也有過詳細的描述。
Hinkle說:“當一個故障發生的時候,發送一個頁面或其他的警告通常會引發一系列的事件:一個管理員收到了一個頁面,登陸到服務器,然后再診斷這個問題。這個過程可能會花費幾分鐘的時間或者更長的時間。”他接著補充道:“在大多數情況下,監控工具可以啟動一個進程,自動地修復這個問題。”他說:“例如:一個監控工具可以探測到一個服務器故障,然后使用一個自動化的工具來重新啟動那個服務器,這樣修復這個故障的時間會縮短很多。”
LogicMonitor的Francis說:“如果你的監控系統不能自動地探測到服務器,應用程序和設備的改變,那么你相當于沒有做監控。原因是,在危急關頭,通常會對服務器和系統會做出很多的改變,如果管理員們依靠人工的方式來處理,那么可能會遺漏掉一些關鍵性的變更。”
把監控和最終用戶聯系起來
服務器監控的最終目標是要確保關鍵性的業務應用程序持續正常地運行。這意味著服務器監控和最終用戶的體驗有很大的關系。
Uptime Software的Cheung說:“管理員們還應該監控和最終用戶的應用程序相關的一些服務器和軟件指標。管理員們需要監控服務器的運行情況和那些服務器上的軟件的運行情況,但是最重要的事情是要把這些指標和最終用戶關心的事情聯系起來——那就是他們的應用程序是否在正常地運行。”Cheung接著說:通過以應用程序為中心的視角,可以讓問題解決者把注意力集中在用戶說了些什么和允許創建哪些警告上,還可以讓自動化的活動更加有相關性和目的性。
【51CTO.com譯稿,轉載請注明原文作譯者和出處。】
原文:Solve Server Monitoring Problems
【編輯推薦】