液體冷卻如何克服高性能計算基礎設施相關挑戰
如今,距離新冠病毒大流行開始已有兩三年時間,為了維持我們日常生活的功能,數據中心各行業的數字需求出現了前所未有的繁榮。例如,在醫療保健領域,遠程醫療就診次數增加了63倍,從2019年的84萬次增至2020年的5270萬次。
據Gartner稱,最終用戶在公共云服務上的支出預計在2022年將達到4820億美元。在《哈佛商業評論》的一項調查中,86%的受訪者表示人工智能 (AI) 已成為其組織的主流技術,67%的受訪者表示希望在2021年加速人工智能的采用。這些服務仍然像以往一樣重要,但它們只是觸及了網絡復雜性的表面。
隨著當今的網絡變得更加復雜和分散,增強現實和虛擬現實應用變得更加突出,對實時計算和決策的需求變得更加關鍵。這種實時需求對延遲很敏感,在企業、公有云、私有云、托管、邊緣日益普遍的混合模式下,專職人工管理變得越來越困難。
因此,人工智能和機器學習 (ML) 對于優化這些網絡的性能并為更多遠程監控解決方案讓路至關重要。5G的持續推出進一步增加了我們的數字需求,5G的速度有望比其前身4G快500% ,并且企業競相從2022年232 億美元的預計收入中分得一杯羹。
這些進步不可避免地需要付出代價——計算和熱密度的增加。高性能計算 (HPC) 迅速加速支持AI、ML和5G,解決了眾多企業業務挑戰。對于許多數據中心運營商來說,這很快就會產生對高密度機柜和數據中心的需求,需要改變基礎設施來冷卻這些關鍵系統。
隨著機架密度接近并超過30千瓦 (kW),無論系統如何優化,空氣冷卻系統都可能不夠。盡管空氣冷卻技術在有效解決不斷增加的密度方面取得了長足的進步,但在某種程度上,空氣根本不具備為高密度機架提供足夠冷卻所需的傳熱特性。忽視這些限制的組織應該預見到更高的能源成本、更低的性能以及最終的延遲實施。
空氣冷卻最可行的替代方案是將液體冷卻引入機架。液體冷卻利用水或其他流體較高的傳熱特性來支持高密度機架的高效且經濟高效的冷卻。液體冷卻有多種使用不同技術的配置,包括后門熱交換器、直接芯片冷卻和浸入式冷卻。
雖然液體冷卻通常被認為是距離主流采用還需要數年時間的利基應用,但Open19 基金會和開放計算項目等技術智庫匯聚了行業領導者,共同應對計算密度持續增加帶來的挑戰。通過這些合作,行業領導者取得了巨大進步,并開發了多種產品,幫助使液體冷卻技術成為更廣泛受眾的可行解決方案。
簡而言之,液體冷卻的工作原理如下:冷卻液體循環到嵌入IT設備中的冷板熱交換器。這提供了高效的冷卻,因為冷卻介質直接進入IT設備,而不是冷卻整個空間。它的效率比使用空氣高出3000 倍,使密集機架中的中央處理單元 (CPU) 和圖形處理單元 (GPU) 能夠以其最大電壓和時鐘頻率連續運行而不會過熱。
再加上減少或消除數據中心和服務器中空氣流通所需的風扇,可以為液冷數據中心帶來顯著的節能效果。此外,液體冷卻所需的泵比完成相同冷卻所需的風扇消耗更少的功率。
液體冷卻的類型
后門熱交換器是一項成熟的技術,它不會將液體直接輸送到服務器,而是利用液體的高傳熱特性。在無源后門熱交換器中,充滿液體的盤管安裝在機架后門的位置,當服務器風扇將熱空氣吹過機架時,盤管會在空氣進入數據中心之前吸收熱量。在主動設計中,集成到設備中的風扇將空氣吸入線圈以增強熱性能。
在直接芯片液體冷卻中,冷板位于服務器主要發熱組件的頂部,通過單相或兩相過程排出熱量。單相冷板使用循環到冷板中的冷卻液來吸收服務器組件的熱量。在兩相過程中,低壓介電液體流入蒸發器,服務器組件產生的熱量使流體沸騰。熱量以蒸汽形式從蒸發器中釋放出來,并轉移到機架外部以進行排熱。
通過浸入式冷卻,機架中的服務器和其他組件浸沒在導熱介電液體或流體中。在單相浸沒系統中,熱量通過與服務器組件直接接觸傳遞到冷卻劑,并通過浸沒槽外部的熱交換器去除。在兩相浸沒式冷卻中,介電流體被設計為具有特定的沸點,可以保護 IT 設備,同時實現高效散熱。服務器發出的熱量改變了流體的相,上升的蒸汽通過位于水箱頂部的盤管冷凝回液體。
液體冷卻作為持續成功的路線圖
如果組織計劃使用液體冷卻來支持新的HPC相關基礎設施要求和挑戰,那么除了效率和可靠性之外,還有其他一些好處。這些好處包括:
- 提高性能:液體冷卻系統不僅可以實現所需的可靠性,還可以帶來 IT 性能優勢。當處理器外殼溫度接近最大安全工作溫度時(空氣冷卻可能會發生這種情況),處理器性能會降低以避免熱失控。
- 可持續性:液體冷卻不僅創造了降低數據中心能耗并將電力使用效率 (PUE) 降至接近 1.0 的機會,而且還提供了一種更有效的方法來重新利用捕獲的熱量,以減少對建筑供暖系統的需求。系統的回水溫度可以達到60 攝氏度或更高,并且液體到液體的熱傳遞比空氣系統更有效。
- 最大限度地提高空間利用率:液體冷卻帶來的密度使設施能夠更好地利用現有數據中心空間,從而無需擴建或新建,或建造占地面積較小的設施。它還可以在物理空間有限的情況下支持處理密集型邊緣應用程序。
- 降低總擁有成本 (TCO):在《數據中心液冷 IT 設備:總擁有成本》報告中,ASHRAE對風冷數據中心與混合(風冷和液冷)數據中心進行了詳細的擁有成本分析數據中心模型發現,雖然許多變量會影響TCO,但“液體冷卻可以通過更高的密度、增加自然冷卻的使用、提高性能和提高每瓦性能來改善TCO。”
對于應對增加機架密度挑戰的組織領導者來說,可能是時候認識到空氣冷卻的局限性并考慮使用液體冷卻來幫助實現能源和可持續發展目標。對于那些部署極高密度機架(大于30kW)的人來說,可能沒有其他選擇。
然而,這是一個復雜的過程,因此企業組織與合適的合作伙伴合作以確保任何液體冷卻部署的成功非常重要。更多信息,可參考白皮書《了解數據中心液體冷卻選項和基礎設施要求》。