CANN黑科技解密?昇騰Ascend C編程語言 — 極簡易用的算子開發體驗?
AI應用的大腦是神經網絡,而構成神經網絡的基石是一個個算子。為了讓開發者的網絡在昇騰硬件上高效運行,昇騰異構計算架構CANN(Compute Architecture for Neural Networks)提供了豐富的高性能算子庫,包括神經網絡庫、線性代數計算庫等,高性能算子數量達到1400+。有了高性能算子庫的支撐,主流神經網絡可輕松在昇騰硬件上高效運行。
但隨著人工智能的爆發式增長,算法更新層出不窮,固定的高性能算子庫可能無法完全滿足開發者的多樣化創新需求,為了讓開發者提出的創新算法能夠在硬件上運行起來,自定義算子開發的能力必不可少。
但算子開發是個復雜的工程,需要考慮眾多因素,包括語言學習成本、功能邏輯的實現、硬件指令的適配、以及算子運行精度與性能的達標等等。往往一個經驗豐富的算法專家開發一個高性能的算子都要耗時數周甚至更長的時間。
算子開發總體流程
為提升算子開發效率,降低算子開發成本,昇騰推出了面向算子開發場景的昇騰Ascend編程語言。昇騰Ascend編程語言原生支持C和C++標準規范,最大化匹配用戶開發習慣;通過多層接口抽象,屏蔽了底層硬件差異;通過自動并行計算等關鍵技術,在保證性能的同時大大降低算子開發門檻。另外,昇騰Ascend提供了孿生調試功能,大大縮短了算子調測時間。
昇騰Ascend C編程語言在異構計算架構CANN中的位置
多層級高性能類庫接口
工欲善其事,必先利其器。為簡化開發邏輯,昇騰Ascend支持結構化核函數編程,提供了面向不同場景的高性能類庫接口。開發者僅需通過類庫接口的組裝調用,即可輕松實現高性能算子。
昇騰Ascend C提供的類庫接口
AI應用領域廣泛,開發者的背景與需求也各不相同。為滿足不同層級開發者的訴求,昇騰Ascend針對計算接口和數據搬移接口,進行了分層分級,讓開發者可以根據自身需求選擇合適的接口。
針對計算類接口,當前昇騰Ascend支持三個層級,其中級數越低,自由度越高,更易于表達復雜場景所需功能;級數越高,接口的封裝度越高,更易于表達常用語義,使用起來也更簡單。
計算接口分層分級與示例
針對搬移類接口,昇騰Ascend C將不同類型物理內存間的數據搬移抽象為一個統一的數據搬運接口,通過參數控制不同的搬運級別,從而滿足不同數據搬運場景的需求。
數據搬運接口分層分級與示例
另外,多層級的類庫接口封裝,可以更好地屏蔽不同型號硬件間的差異,輕松實現算子代碼對不同硬件的兼容。
自動并行計算
多層級的類庫接口可以讓開發者輕松實現算子的算法邏輯,達成預期功能。但一個好的算子,計算效率也是必須考慮的重要指標。眾所周知,將任務并行處理是提高計算效率的關鍵手段,但AI處理器的內存層次結構比較復雜、數據通路多,數據之間的依賴關系復雜,這種場景下,并行計算之間的流水如何排布,各任務間的數據同步如何實現,往往是比較困難的。
為了方便開發者實現高效的并行計算,昇騰Ascend采用SPMD(Single-Program Multiple-Data)并行模式,開發者僅需關注一個計算核心上的算子程序實現,程序調用時,可自動啟動N個運行實例(我們稱之為Block),每個實例都可部署到不同的計算核心上執行。由此,大大簡化了開發者在多個計算核心上的并行編程邏輯。
單程序多數據SPMD并行計算
在算子邏輯實現上,昇騰Ascend C基于流水線并行的編程范式,將算子核心邏輯劃分為“搬入、計算、搬出”,開發者只需聚焦實現“搬入、計算、搬出”內容,程序運行時,系統會自動將核內數據進行分片,每一片數據都專注完成單一功能,實現計算性能最大化。
核內多片數據流水線并行調度
孿生調試
昇騰Ascend提供的多層級類庫接口以及自動并行計算功能,給開發者提供了輕松高效的編碼體驗。但在上一代算子開發的整個流程中,代碼編寫的時間往往僅占不到30%,剩下70%多的時間都在進行功能與性能調試,好的調試能力對提升端到端開發效率的重要性不言而喻。
開發時間占比示例
那為什么算子調試如此耗時呢?究其主要原因,一方面是由于NPU環境下本身調試困難,另一方面是因為編程過程隱藏了并行細節,導致同步死鎖、地址越界、數據溢出等問題難定位。
為提升算子調試效率,昇騰Ascend C提供了孿生調試能力,開發者既可以在CPU域進行調試調優,又可以在NPU域進行調優驗證,通過CPU域與NPU域相結合的方式,降低調試難度,提升調試效率。
在CPU域,開發者可通過業界標準C++工具GCC編譯器進行編譯,并通過GDB通用調試工具進行單步調試,精準驗證程序執行流程是否符合預期。另外,昇騰Ascend還提供了主動Bug分析工具,方便開發者快速進行問題定位;在NPU域,昇騰Ascend C提供了仿真調試能力與上板調試能力,開發者可以通過仿真調試的Profiling流水圖、指令日志以及數據日志,精準進行性能調優,也可以通過上板調試進行真實行為的驗證。孿生調試的能力,在提升算子調試效率的同時又可保證精度與性能的達標。
昇騰Ascend C孿生調試
人工智能蓬勃發展,算法創新層出不窮。昇騰Ascend編程語言通過易上手、高性能、易調測的優勢,為開發者的創新算法更輕松高效地運行奠定了基石,讓基于昇騰的AI創新更加簡單。
昇騰Ascend C算子開發快速體驗