讓高性能計算機性能"看得見"
10月26至29日,一年一度的高性能計算領域盛會“2011年全國高性能計算學術年會”(HPC China 2011)在山東濟南山東大廈召開。26日舉行的是國際高性能計算咨詢委員會2011中國研討會(HPC Advisory Council China Workshop 2011),IT168作為獨家網絡支持媒體為您做現場報道。
▲HPC China 2011專題
北京并行科技有限公司(Paratera)CTO陳健作了《從Linpack年代到真實應用性能年代》的報告。
陳健談到,雖然人們一提及高性能計算機時,往往會用Linpack測試值來衡量HPC機器的性能,如TOP500排行榜,但實際上用戶對這種衡量標準并不滿意,因為它在高性能計算機的選型、優化過程中無法提供有效的參考。憑借在聯想做了3年方案、在英特爾做了5年調優的經驗積累,陳健對用戶真正想要的東西很清楚。
▲
在此次會議上,他介紹了并行科技公司新推出的Paramon應用運行特征收集器、Paratune應用運行特征分析器等性能監控管理工具軟件,并表示其目的是要讓高性能計算機的性能可以“看得見”,讓HPC用戶和從業人員可以更簡單有效地掌握機器性能,從而快速采取相應的對策。
陳健從最終用戶的需求出來,指出了當前高性能計算性能優化面臨的幾個重要問題:
一是絕大多數實際運行的軟件只發揮硬件很少的計算能力,問題是如何快速準確測量當前軟件發揮了多少計算能力?
二是軟件優化技術太復雜、太耗時,問題是如何讓調優普及化,如何用20%的時間挖掘出80%的優化空間?
三是高性能計算應用為先,需要提供匹配關鍵應用的硬件方案,問題是如何快速確定應用對硬件各組件的需求情況?
針對上述問題,北京并行科技有限公司提出了“快速應用運行特征分析方法”這一解決方法(包括面向最終用戶的Paramon應用運行特征收集器和面向軟硬件廠商開發人員的Paratune應用運行特征分析器),盡可能讓高性能計算機實際運行過程中的所有性能數據都能“可視化”,從而幫助用戶更有效地實現系統的選型、配置、調優與管理。
▲
據介紹,其中,Paramon應用運行特征收集器,通過實時監控機群管理/登錄節點、計算節點、IO節點等服務器的處理器、內存、網絡和存儲性能數據,提供機群系統中應用軟件隨時間變化的運行特征。Paramon軟件面向IT管理人員、硬件管理員、機房管理員等用戶角色,通過實時監控、采集機群中服務器的CPU、GPU、內存、網絡和存儲等關鍵設備的系統級和微架構級性能數據(Gflops、Memory Bandwidth、Vectorization、CPI、GIPS),以圖形化的方式直觀顯示,快速反映提供機群系統中應用軟件隨時間變化的運行特征,同時了解硬件環境的運行現狀,快速了解機群中隱含的硬件問題,從而在問題發生時***時間給出解決方案。
▲
▲
▲
Paratune應用運行特征分析器,則可以分析Paramon生成的.para應用運行特征文件,顯示應用運行時各節點中處理器、內存、網絡和磁盤的性能數據,重構機群應用運行過程,高效、準確地描述應用的運行特征。硬件廠商機群方案設計人員根據用戶應用運行特征圖,可以清楚的了解應用在運行的各個階段,對硬件設備處理器、內存、網絡和磁盤等各部分的需求情況,基于這樣準確的數據分析,方案人員可以提供有針對性、真正符合客戶應用需求的HPC機群設計方案。應用軟件優化人員根據用戶應用運行特征圖,可以準確了解用戶應用程序的運行狀態,了解程序運行熱點段對各種硬件部件的依賴程度,快速定位系統性能瓶頸,找到應用優化的空間和方向。
▲
陳健表示,目前Paramon應用運行特征收集器在全國已經安裝了100套,用戶可以在www.paratera.com上直接下載試用。
【編輯推薦】