華為KunLun高性能計算解決方案助力清華天文課題研究
天文物理研究對計算平臺的要求
天體物理研究試圖回答以下一些問題:宇宙是如何產生和發展的、宇宙中的物質構成是什么、他們又是如何演化和相互作用的?除了觀測和理論分析,大規模數值模擬成為當今天體物理研究的不可或缺的重要手段和工具。同時,各種巡天計劃產生了海量數據,這些數據的存儲、共享和分析也成了天文學發展的巨大挑戰。
宇宙結構起源是天體物理的前沿問題之一。研究早期宇宙有兩個重要工具,一個是宇宙微波背景輻射,另一個是來自宇宙早期的中性氫的輻射。對前者的研究碩果累累,獲得了兩個諾貝爾獎。相比之下,對宇宙早期中性氫的研究卻剛剛起步,一方面是由于觀測的困難,另一方面也是理論上的不足。目前,隨著國際上一些大的觀測設備的建立(比如平方公里陣列SKA),宇宙早期中性氫的觀測將變成可能,但與此同時,對理論的需求約越來越迫切。
由于物理對象的復雜性,理論研究早已超出了一支筆和一張紙可以計算的范疇,而必須依賴大規模數值計算。針對中性氫這一熱門研究方向,清華大學引進了專門人才進行數值模擬研究,將對宇宙早期的環境進行物理建模,獲得有理論指導意義的先進成果。
綜上所述,清華大學天體物理中心急需搭建一套高性能計算系統,該系統主要提供兩種服務,一方面是大規模數值模擬及結果分析,另一方面將提供海量天文數據的存儲、共享、數據分析和建模。這套系統的成功運行,預計會在未來幾年內在這一領域產生高顯示度的成就,使得清華大學在宇宙早期中性氫等相關研究領域獲得國際的***水平。
通過數值模擬得到的宇宙年齡在7億年時的中性氫(綠色區域)、電離氫(橙色區域)和作為電離源的***代星系(藍色點)的分布圖,此時宇宙中平均72%的氫呈電離態。三維模擬空間的邊長是約合5億光年,圖示是二維截面。
高性能計算(High performance computing,縮寫HPC) 指通常使用很多處理器(作為單個機器的一部分)或者某一集群中組織的幾臺計算機(作為單個計算資源操作)的計算系統和環境。HPC系統主要由計算、存儲、網絡、集群軟件組成,其中的計算節點分為MPI節點(瘦節點)、胖節點、GPU加速節點。雙路節點稱為瘦節點,一般是2路服務器組成集群,胖節點配置大容量內存。胖節點主要是相對于普通的雙路計算節點而言,按照目前的技術發展,所謂胖節點至少有4 顆物理CPU 以上,內存至少能擴展到512GB以上。胖節點內部一般采用NUMA 架構,所有CPU 能夠全局共享系統內存,并保持cache 一致性。胖節點相比雙路“瘦”節點,***的優勢在于單機的CPU 核數多、單機計算能力強,內存擴展能力強,另外,胖節點的本地磁盤IO 擴展和PCI-E 板卡擴展能力一般也比雙路瘦節點高。
清華大學天體物理研究使用的共享內存并行程序雖然在單節點內并行的效率較高,但跨節點的并行較難實現。相比之下,路胖節點的CPU 核心數多,計算能力強,能夠更好的實現共享內存并行程序的需求。通過對計算能力需求的評估,胖節點要具備16個CPU以上的擴展能力,內存至少要達到4TB以上,且必須是開放的、先進的架構,維護要簡單。另外,由于系統基本會全時運行,所以要求系統具備超高的可靠性。同時,考慮到院系一般沒有專人負責系統維護,所以希望能夠提供專業的高性能計算服務,貼身運維保障。
華為聯合華算為清華提供最***高性能計算系統
華為公司和上海華算為清華提供高性能計算聯合解決方案,硬件平臺采用華為KunLun開放架構小型機+新一代V3統一存儲系統,華算提供軟件安裝和定制開發、HPC性能優化、運維保障等服務,兩者強強聯合***解決了清華天文研究的需求。
華算信息科技有限公司(CHPC),坐落在中國上海,是專業的高性能計算和高性能存儲應用解決方案及服務供應商,致力于為科技創新用戶提供創新的高性能計算和存儲解決方案及專業的IT服務,以幫助用戶增強科研和生產業務的技術創新能力。CHPC提供高性能計算解決方案 、高性能存儲解決方案、創新的軟件和專業服務。CHPC的解決方案和服務被科學、技術和商業用戶廣泛用于解決具有挑戰性的數據密集型計算、復雜的數據管理和關鍵任務問題。業務遍及學術和教育、天氣和氣候、天文、生命科學、能源、航空航天、建筑設計、商業情報等行業。華算是華為公司在HPC領域的重要合作伙伴,在天文、生命科學等領域都有過很深入的合作。
該平臺選擇華為KunLun做為計算平臺的胖節點,KunLun 開放架構小型機是華為公司推出的以Intel® Xeon® E7 4800/8800處理器為核心、華為自研芯片實現計算互連的x86架構系統,本期初始配置16個處理器共256個計算核心,4TB超大內存,***可擴展至32個處理器,24TB內存。在這個配置下可以模擬宇宙大尺度的再電離過程(1024^3格點,邊長3億光年的立方體模擬空間)。由于華為KunLun使用共享內存的并行化方案,省去了集群運算中的信息傳遞時間,極大地提高了運算速度。
KunLun植根于開放生態、提供業界領先的高性能和高可靠特性。相比封閉架構小型機,KunLun在靈活性、互通性和經濟性等方面具有顯著優勢,具有穩定可靠、***性能和生態開放的特點:
穩定可靠
創新的RAS 2.0技術,業界唯一支持CPU和內存等核心部件在線更換,保障業務連續性。且KunLun可以基于對應用進程和部件工作狀態的實時監控與分析并做出提前預警,對潛在的故障主動識別并及時隔離,達到99.9996%的超高可靠性,年理論計劃外宕機時間小于3分鐘,全面超越傳統小型機,確保關鍵業務持續運行,為清華天文課題研究保駕護航。
***性能
創新的NC互聯芯片實現32顆CPU高速互聯,性能相比傳統小型機提升40%以上,在***的SPEC整型和浮點計算能力的兩項基準測試中,KunLun雙雙破紀錄,拿下***。提供硬分區技術,實現多分區特性,靈活滿足業務所需,可靠性相比基于虛擬化軟件實現的軟分區提升5倍以上。
生態開放
華為KunLun開放架構小型機擁有目前業界最完整和最成熟的產業鏈生態環境,目前已通過主流數據庫、中間件和OS廠商的兼容性認證,提供端到端解決方案。
此外,華為KunLun率先在業界采用8英寸觸摸屏用于本地維護,圖形化展現、完善的權限管理機制,輕松幫清華用戶實現高效管理體驗。
本次選擇華為新一代OceanStor V3存儲系統實現天文科研數據的統一存儲,一套系統支持塊、文件,承載多業務,初期配置180TB存儲容量,性能和容量可彈性擴展,滿足清華用戶未來5到10年的業務增長需求;華為V3存儲為用戶提供最簡單的管理平臺,初始配置設備只需5步,40秒內即可完成,擴展容量僅需2步操作,15秒內即可完成;提供全局拓撲展示、容量分析、性能分析、故障定位和端到端業務可視等強大功能;用戶可使用Pad、手機即時管理存儲系統,系統狀態信息自動送達,無需專人值守,完全滿足清華用戶對運維管理的強烈訴求。
華為&華算聯合解決方案非常適合天文領域對高性能計算的需求,該系統的上線將為清華天文物理研究提供穩定、可靠、高效的高性能計算平臺,并為平臺的擴建、更新等提供全方位的服務。
結束語:華為的硬件是華為高性能計算的基石,華為具有多種可以運用于高性能計算的硬件,包括服務器、存儲、網絡等,通過集成業界專業的集群管理軟件和并行計算環境,為客戶提供一整套軟硬件集成優化的高性能計算平臺系統。華為以KunLun高性能服務器構建超級計算系統,自研的互聯芯片可以實現單節點***32路CPU互聯和24TB內存容量,能夠滿足科研高校解決各類***科研問題而帶來的海量計算需求。