數(shù)據(jù)中心管理者如何為AI和ML的爆炸式增長做好準(zhǔn)備?
生成式人工智能和機(jī)器學(xué)習(xí) (ML) 迅速進(jìn)入公眾意識,使人們對這些有前景的技術(shù)的功能產(chǎn)生了新的關(guān)注。 大語言模型開發(fā)的進(jìn)步使人工智能技術(shù)通過 ChatGPT 等聊天機(jī)器人和 DALL-E 3 等圖像生成器更容易為公眾所接受。但消費者技術(shù)只是觸及了人工智能潛力的表面——這些技術(shù)正被企業(yè)用來支持供應(yīng)鏈管理、財務(wù)分析、營銷、搜索、圖像生成等。
人工智能行業(yè)預(yù)計將在未來十年大幅增長,到2030年將達(dá)到近2萬億美元。隨著技術(shù)的不斷改進(jìn)和政府對其實施越來越放心,醫(yī)療保健、移動性、能源發(fā)電和電力設(shè)施等行業(yè)將擴(kuò)大人工智能技術(shù)的使用范圍,以推動更簡化的業(yè)務(wù)實踐并為客戶帶來更好的結(jié)果。
新技術(shù)、新數(shù)據(jù)中心需求
客戶可能已經(jīng)習(xí)慣了人工智能和ML應(yīng)用程序的精簡界面,但數(shù)據(jù)中心管理人員知道必須在幕后處理大量數(shù)據(jù)才能實現(xiàn)這些體驗。這需要處于IT開發(fā)前沿的高性能芯片。
實現(xiàn)人工智能的強(qiáng)大芯片需要精確的電源管理,更重要的是需要冷卻。高級應(yīng)用程序散發(fā)的熱量要求數(shù)據(jù)中心管理人員適應(yīng)高熱負(fù)載,同時保持?jǐn)U展運營以滿足需求的能力。 更復(fù)雜的是,增加物理占地面積可能并不總是一種選擇——數(shù)據(jù)中心經(jīng)理和工程師通常需要解決在同一空間中安裝更多計算能力的技術(shù)挑戰(zhàn)。 此外,來自各個垂直領(lǐng)域的客戶始終需要 24/7 的正常運行時間,因此通常需要在不完全重塑或重組數(shù)據(jù)中心架構(gòu)的情況下滿足人工智能應(yīng)用程序的需求。
冷卻方法必須轉(zhuǎn)變
對于希望支持人工智能基礎(chǔ)設(shè)施和下一代高性能芯片的裝置,傳統(tǒng)的冷卻方法是不夠的。 試圖通過高速空氣冷卻來管理不斷增加的熱負(fù)荷的數(shù)據(jù)中心將很快變成類似風(fēng)洞的環(huán)境,難以工作且運營成本昂貴。 此外,當(dāng)空氣冷卻系統(tǒng)超時工作以維持必要的工作溫度時,設(shè)施將面臨設(shè)備故障、計劃外停機(jī)和高能源成本的風(fēng)險。 液體冷卻為許多數(shù)據(jù)中心提供了更好的解決方案。
無論是完整的液體冷卻解決方案還是混合解決方案,將液體冷卻引入數(shù)據(jù)中心架構(gòu)都可以在節(jié)省能源的同時提高性能。 然而,對于正在設(shè)計或改造以適應(yīng)最高科技應(yīng)用的數(shù)據(jù)中心,液體和直接芯片冷卻通常是唯一可能的選擇。
液體冷卻系統(tǒng)可以幫助數(shù)據(jù)中心增加容量,同時保持空間和能源的高效利用。 它們還可以降低數(shù)據(jù)中心設(shè)施的總擁有成本。 液體冷卻系統(tǒng)為實現(xiàn)下一代技術(shù)所需的溫度參數(shù)提供了有效的解決方案,因為液體的傳熱能力比空氣大得多。 這提高了電力使用效率——衡量數(shù)據(jù)中心使用設(shè)施電力進(jìn)行計算而不是輔助系統(tǒng)的效率。
大規(guī)模解決方案
對于無法實現(xiàn)完全液冷架構(gòu)的數(shù)據(jù)中心,有多種選擇。 數(shù)據(jù)中心可以冷卻容納人工智能和機(jī)器學(xué)習(xí)應(yīng)用程序的單個機(jī)架或一小組機(jī)架。 這意味著他們不需要部署全尺寸的液冷數(shù)據(jù)大廳。
在實施這些現(xiàn)場解決方案時,數(shù)據(jù)中心經(jīng)理需要了解未來的業(yè)務(wù)計劃。 使用專用的冷卻解決方案來解決獨特的問題是一種可行的方法,但由于成本、能源效率和其他因素,一個問題的解決方案可能無法解決另一個問題。 所有數(shù)據(jù)中心經(jīng)理都明白,不同的挑戰(zhàn)需要不同的解決方案,而一刀切的方法很少會成功。 這可能意味著規(guī)劃下一代數(shù)據(jù)中心采用完全液體冷卻,或探索混合液體-空氣解決方案,將液體冷卻帶到機(jī)架和芯片級別,同時在風(fēng)冷基礎(chǔ)設(shè)施中運行。
此外,許多數(shù)據(jù)中心正在通過安裝帶有歧管的服務(wù)器機(jī)架以及液體冷卻所需的額外管道注意事項來為下一代冷卻做好準(zhǔn)備。 這使得數(shù)據(jù)中心能夠在液體冷卻到來時輕松過渡到液體冷卻,因為它們的機(jī)架級基礎(chǔ)設(shè)施已經(jīng)與設(shè)施液體兼容。
規(guī)劃未來和了解 IT 工作負(fù)載將帶來的最大優(yōu)勢是認(rèn)識到幾乎所有潛在的冷卻解決方案都可以組合構(gòu)建,從而使數(shù)據(jù)中心管理人員能夠根據(jù)不斷變化的需求來匹配其電源和冷卻能力。 可持續(xù)增長的關(guān)鍵是支持下一代設(shè)備的多種靈活選擇。 液體冷卻技術(shù)有助于提高靈活性。
其他基礎(chǔ)設(shè)施考慮因素
除了冷卻之外,數(shù)據(jù)中心基礎(chǔ)設(shè)施的其他部分對于人工智能和機(jī)器學(xué)習(xí)技術(shù)的部署也很重要。 例如,智能配電單元 (PDU) 的遠(yuǎn)程監(jiān)控和控制功能可以提高能源效率,同時降低停機(jī)風(fēng)險。
泄漏檢測也很重要。 在設(shè)施層面,液體可以通過多種方式進(jìn)入數(shù)據(jù)中心。 設(shè)施水管如果保護(hù)不當(dāng),可能會凍結(jié)和爆裂。 備用發(fā)電機(jī)可能會泄漏燃料。 在某些情況下,液體冷卻管路可能會損壞。 泄漏檢測技術(shù)可幫助數(shù)據(jù)中心管理人員遠(yuǎn)程查明泄漏的確切來源并關(guān)閉設(shè)備以防止損壞。 這種設(shè)備的遠(yuǎn)程監(jiān)控和控制對于此類緊急情況以及密切關(guān)注數(shù)據(jù)中心的日常效率和平穩(wěn)運行至關(guān)重要。
人工智能、機(jī)器學(xué)習(xí)和高性能計算的激增已經(jīng)給數(shù)據(jù)中心管理人員帶來了許多新的挑戰(zhàn),但如果有了正確的支持解決方案和系統(tǒng),它也將帶來令人興奮的機(jī)遇。 憑借精心設(shè)計的冷卻和電源技術(shù),數(shù)據(jù)中心經(jīng)理和消費者都可以從這項令人興奮的技術(shù)中受益。