如何利用機器學習來管理數據中心電源?
譯文【51CTO.com快譯】數據中心變得越來越復雜不是什么秘密。有更多類型的硬件和管理軟件,更頻繁變化的工作負載以及公共云。隨著邊緣計算即將來臨,情況只會變得更錯綜復雜。
許多業內人士希望機器學習讓數據中心的管理人員在面對這種復雜情形時能夠更從容。幾家公司已經在銷售使用機器學習算法的數據中心管理軟件。一些從數據中心作為計算機的整體角度來解決問題,另一些選擇單單專注于散熱或電源。雖說散熱是當今低效運作的數據中心浪費大量能源的一方面,但利用智能軟件工具來管理電氣數據中心基礎設施卻大有好處。
一家名為Virtual Power Systems(VPS)的初創公司正利用機器學習來消除數據中心中通常所謂的“擱置電源”。數據中心有一個為支持超出必要的電源負載而設計的電氣系統很常見。有時這是有意為之,以確保冗余,而有時是由于設計人員無法預測數據中心在將來會如何使用。
VPS的“軟件定義電源”解決方案使用內置電池的智能電氣硬件(包括施耐德電氣等合作伙伴的設備),在整個數據中心內更合理而高效地重新配電。該公司表示,需求變化時,它可以動態重新配電。
該軟件名為ICE,使用的機器學習可以集中預測電源需求(包括電池管理和電源尖峰概率),并將配置模式發送到數據中心樓層硬件中運行的推理引擎,然后根據實際需求來調整每個機架可供使用的電源負載。
VPS的***技術官Karimulla Shaikh告訴我們:“如果你有冗余的基礎設施,有兩條電源線進入機架,你以這種方式來部署負載,那樣萬一發生故障,可以從一個切換到另一個。這意味著你最多使用每一路50%的容量。如果使用我們的交換系統,可以使用100%的負載。如果發生故障,交換系統是智能的,它能夠介入將所有負載移到電池上、持續一小段時間,然后利用我們的軟件,將應用程序轉移到別處或者讓工作負載下線。”
軟件構建的機器學習模型還可以用作模擬器,以了解如果你添加更多的服務器或機架,電源傳輸會受到怎樣的影響。
但這僅僅是個開始。Shaikh表示,VPS正與一些客戶合作,設法完全避免典型的冗余數據中心基礎設施設計。它還關注數據中心能源之間的動態切換,比如市電、燃料電池和間歇性可再生能源。
Nlyte Software的數據中心基礎設施管理(DCIM)軟件被該公司的***戰略官Enzo Greco比作“面向數據中心的實時ERP(企業資源規劃)”,它最近為其解決方案添加了使用IBM Watson機器學習服務的預測性熱量和電源管理功能。Watson幫助它基于來自傳感器、設備和應用程序工作負載信息的數據來構建模型。Greco表示,在許多情況下,收集所有數據已經相當容易,那么為何不更常使用它、為你所用呢?
許多數據中心已經有溫度和濕度傳感器、實時操作服務器數據和功率計。他說:“幾乎隨時可以從任何現代設備獲得數據,無論是UPS還是PDU。”機器學習系統可以找出隱藏的模式以及不同系統和端點之間的聯系。
Greco說:“我們能夠預測將來某個時間服務器和機架層面的電源異常。”在穩定狀態下,機架可能耗電10kW,但在某個時候,可能激增至15kW。“有了足夠的歷史數據,就可以預測將來一小時這個機架會耗電15kW。”電源尖峰可能是機械問題或應用軟件引起的。“也許你是在批處理模式下運行SAP,也許你的交易系統在峰值狀態下運行。”
他表示,如果你能預測電源尖峰,可以通過移動工作負載、關閉服務器或者對UPS電池進行一些預防性維護來做好準備。
大多數Nlyte客戶在使用機器學習系統來接收警報、了解可能有問題的方面。該軟件公司還在開發預測故障和預防性維護模塊。Greco說:“功率和熱量是預測故障的兩個極好的主要指標。如果你可以預測功率異常,這是表明你可能遇到應用軟件問題或遇到機械問題的主要指標。”
除了比操作人員更迅速地檢測異常外,機器學習還可以幫助操作員更清楚地了解其數據中心中的電氣基礎設施冗余機制。Uptime Institute的研究副總裁Rhonda Ascierto告訴我們:“由于某個因素(比如操作實踐發生變化),機房的電源冗余性可能不如當初設計時。關鍵是確保數據中心的每個部分在冗余配置方面都按照你預期的那樣來操作運行,盡管這些數據中心的性質在不斷變化。”
機器學習有望將數據中心的可用性策略從被動變為主動。他解釋道:“UPS是被動的,它等到電源故障后切換至正常系統。應用軟件在發生故障后恢復,這是被動的。變成主動意味著不用等;將來我會遇到問題,現在就解決問題。”
原文標題How Machine Learning Is Used to Manage Data Center Power Today,作者:Mary Branscombe
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】