打破存儲性能瓶頸,實現AI應用的騰飛
經典的“木桶理論”告訴我們,決定桶能裝多少水,是由最低的那塊木板來決定的。
同樣目前數據在整個IT系統中的運行過程,也有一個瓶頸一直存在,就是存儲介質的性能。
互聯網催生了海量應用,海量應用誕生了海量的不同種類的數據。要讓多元的數據發揮價值,不僅需要更強的處理器,更快的網絡還有最終數據存儲的讀寫能力。
今天算力發展喜人,多元的數據,催生著多元的算力的出現,通用算力CPU、人工智能算力GPU、TPU、NPU等處理器的蓬勃發展,X86、ARM架構等算力的架構發展。
網絡技術發展喜人,移動互聯、視頻、直播等對于海量的數據傳輸需求,催生了數據中心的網絡帶寬100G、400G端口的發展。華為早在2018年正式發布全新400G光網絡商用解決方案,支撐運營商全業務場景的400G網絡快速部署。
同樣存儲技術在性能方面的發展并不喜人,海量的數據催生了存儲技術的發展,介質上從磁盤到NAND、3D NAND的固態盤,接口從SAS、SATA、PCIE、NVME傳輸協議的升級。但是我們看到存儲在單位容量增長的速度,遠遠大于單位存儲傳輸性能的速度。數據在存儲介質和外界交換的傳輸速度成為整個IT系統的瓶頸。
在積極突破存儲瓶頸的方向上,目前提出有三種方法,一、直接采用全新的架構和技術重新定義存儲技術。二、采用分布式存儲,讓數據分散傳輸來提升整個IT系統的效率。三、研發新的存儲介質,包括原子存儲技術和DNA存儲技術。
研發新的架構和技術。在不久前的2021華為全球分析師大會,華為發布了邁向智能世界2030的九大技術挑戰與研究方向,其中就有針對IT架構中最后的挑戰,存儲性能提升給出了方向,包括構建提升存儲性能百倍的新存儲技術研究方向。
華為希望從突破馮諾依曼架構來提升存儲能力。目前的IT架構基于馮諾依曼架構,數據在CPU、內存、存儲介質之間移動,其中任何一個環境的性能差,都會對整個系統帶來性能挑戰。
我們看到CPU的性能一直在提升,內存的性能也在提升,網絡的帶寬也在提升,存儲的容量也在提升,但是存儲的性能卻一直是瓶頸,包括當前的PCIE、NVME等存儲接口的帶寬速度遠跟不上外部網絡的性能增長。
華為的思路是要提升存儲性能,需要突破馮諾依曼架構的限制,從以CPU為中心,轉向以內存為中心、以數據為中心,從搬移數據轉向搬移計算,打破性能墻。

還有一種方案提高數據存取的效率,當面臨海量數據存取的時候,用最少的存取,實現最大的應用。這就是是分布式存儲。
比如現在火熱的IPFS就是一種比較火熱的分布式存儲系統,其核心概念是基于內容尋址、版本化、點對點的超媒體傳輸協議。也就是數據存取直接指向資源,并確保這些數據都是來自最近的資源。而不是先找到存放的存儲介質,在調取介質里的數據。這樣就大大減少了存儲介質性能對于數據存取的影響。比如一個10TB的文件,可以打散分布在1000個邊緣端的存儲介質上。而且調用的時候,不需要下載到本地,直接調用1000個邊緣端的存儲性能。從而實現數據的高效利用。
第三就是新的存儲介質,包括原子存儲技術和DNA存儲技術,如果能夠真正研發出來,就能夠實現存儲性能的千倍以上的提升,當然目前是理論階段,距離真正落地商業還有還長的距離。