選擇正確AI數據存儲的6條標準
人工智能和機器學習已成為兩個最重要的工具,它們可幫助企業利用其核心數字資產創造競爭優勢。但是在購買AI數據存儲之前,企業必須考慮各種需求–基于機器學習平臺如何獲取、處理和保留數據。
首先我們應確定機器學習軟件使用的數據的生命周期,因為這可幫助企業了解在為AI選擇存儲時需要考慮的因素。最初,企業必須獲取數據來訓練機器學習或AI算法,這里涉及軟件工具來處理數據以學習任務,例如識別對象、處理視頻和跟蹤運動。而這些數據可能來自多種來源,并且通常本質上是非結構化的,例如對象和文件。
這個訓練過程將獲取數據資產,并使用機器學習或AI軟件來創建算法以用于處理未來數據源。在訓練或開發算法時,AI軟件將處理源數據來開發模型,從而創建洞察力或滿足業務需求。
開發機器學習算法很少是單一流程。隨著企業積累新數據,算法會得到完善和改進。這意味著幾乎沒有數據被丟棄,而是隨著時間的推移不斷增加和重新處理。
購買AI數據存儲的標準
在為AI平臺選擇存儲前,企業必須首先考慮以下事項:
成本。對于企業而言,AI數據存儲的價格是關鍵因素。顯然,最高管理層和采購決策人員都希望存儲盡可能具有成本效益,并且在許多情況下,這將影響企業的產品選擇和策略。
可擴展性。我已經強調創建機器學習或AI模型需要收集、存儲和處理大量數據。機器學習算法要求源數據呈指數增長,以實現精確度的線性提高。創建可靠而準確的機器學習模型可能需要數百TB甚至PB的數據,而且這只會隨著時間的推移而增加。
而構建PB級存儲系統通常意味著使用對象存儲或橫向擴展文件系統?,F代對象存儲肯定可以解決AI工作負載的容量需求,但是它們可能無法滿足其他標準,例如高性能。另一方面,橫向擴展文件系統可以提供高性能和良好的可擴展性,但在單個平臺存儲整個數據集可能會很昂貴。同時,考慮到可擴展性要求和高容量產品的成本,塊存儲通常不是機器學習或AI的正確選擇。這里唯一的例外是在公共云中,稍后我們將對此進行討論。
存儲成本的變化引入了分層或使用多種類型存儲來存儲數據的想法。例如,對象存儲庫是存儲大量非活動AI數據的好辦法。當需要數據進行處理時,數據可被移動到高性能文件存儲集群或為高性能而設計的對象存儲的節點中,當完成處理,數據將被移回。
性能。AI數據的存儲性能包括三個方面。首先,可能也是最重要的是延遲性。這定義了軟件發出的每個I / O請求的處理速度。低延遲很重要,因為改善延遲會直接影響創建機器學習或AI模型所需的時間。復雜的模型開發可能需要數周或數月的時間才能運行。通過縮短此開發周期,企業可以更快地創建和完善模型。在檢查延遲功能時,由于對象訪問的流性質,對象將參考傳送首字節的時間(Time To First Byte),而不是單個I / O請求的延遲。
性能的另一個方面是吞吐量,以及數據寫入存儲平臺或從存儲平臺讀取數據的速度。系統吞吐量很重要,因為AI培訓會處理大量數據集,通常會反復讀取和重新讀取相同的數據,以準確地開發模型。機器學習和AI數據的來源(例如自動駕駛汽車上的傳感器)每天可以產生數TB的新數據。所有這些信息都必須添加到現有數據存儲中,并且需確保對任何現有處理只有最小影響。
性能的最后一個方面是并行訪問。機器學習和AI算法會并行處理數據,運行多個任務,這些任務會多次讀取同一數據且跨多個并行任務。對象存儲擅長并行讀取I / O處理,因為不需要管理對象鎖定或屬性。文件服務器會跟蹤內存中打開的I / O請求或文件句柄。因此,活躍I / O請求的數量取決于平臺上可用的內存。
此外,機器學習數據可能包含大量的小文件。在這方面文件服務器可以提供比對象存儲更好的性能。企業可向AI存儲供應商提出的關鍵問題是,當面對大文件類型或小文件類型,其產品的性能特征將如何發生變化。
可用性和耐用性。機器學習和AI學習模型需要長時間連續運行。通過訓練開發算法可能需要幾天或幾周的時間。在此期間,存儲系統必須保持持續可用,這意味著任何升級、技術更換或擴展都不能停機。
在大型系統中,組件故障是正常現象,但必須確保不會導致停機。這意味著用于AI??的任何平臺都應該能夠從設備(例如HDD或SSD)以及節點或服務器故障中恢復。對此,對象存儲使用擦除編碼將數據廣泛分布在很多節點中,并可使組件故障的影響降至最低。還有些擦除編碼技術可橫向擴展文件系統以提供同等級別的彈性。擦除編碼方案的效率很重要,因為這直接與讀寫I / O的性能有關,尤其是對于小文件。
由于大多數大型對象存儲太大而無法定期備份,因此可靠的擦除編碼將成為AI存儲平臺的基本功能。
公共云。開發機器學習和AI算法既需要高性能存儲又需要高性能計算。很多AI系統都是基于GPU(例如Nvidia DGX),這可移除開發精確算法所涉及的很多復雜數學計算。
公共云服務提供商已開始提供可用于機器學習的GPU加速虛擬實例。在公共云中運行機器學習工具可降低構建為機器學習開發構建基礎架構的資本成本,同時可擴展基礎設施以開發機器學習模型。
使用公共云計算的挑戰是如何以經濟高效且實用的方式將數據導入公共云。基于云的對象存儲太慢,無法滿足機器學習的I / O需求;因此,必須使用本地塊存儲。然而,在移動數據時,每分鐘延遲都會提高運行基礎架構的成本,還有執行機器學習的延遲。
公共云的另一個問題是數據轉出的成本。盡管云服務提供商不收取將數據移入其平臺的費用,但他們會對從其平臺外部的公共網絡訪問數據收取費用。因此,雖然公共云提供計算靈活性,但是在公共云可能難以確保及時且經濟高效地將數據移入和移出云。
供應商正在開發存儲產品,以公共云中運行其產品,跨越本地和云端。這些產品可以有效地復制數據或將數據移至云中,并且在完成后僅將結果移回。這些復制技術具有高帶寬效率,使在本地存儲數據并導入到云中進行分析工作變得切實可行。
整合。在整篇文章中,我們都著眼于機器學習和AI的存儲方面。構建AI數據存儲可能會很困難,我們需要考慮多種因素以確保存儲網絡和調整存儲可配合機器學習應用程序。
正如我撰寫的有關融合基礎架構的文章所述,預包裝產品使供應商能夠在將產品交付給客戶之前對其產品進行測試和優化?,F在市面上有些存儲產品整合了流行的AI軟件、(通用CPU和GPU等)計算、網絡和存儲,以提供支持AI就緒的平臺。在部署這些系統之前,很多細節調試工作已完成。盡管成本可能是問題,但對于很多客戶而言,預包裝的系統可以減少部署AI存儲的障礙。
當然,選擇正確的AI數據存儲平臺需要權衡指標,例如性能、可擴展性和成本。正確設置存儲平臺至關重要,因為這里涉及的數據量非常大,選擇錯誤的產品可能會代價高昂。與任何存儲產品決策一樣,企業應該與供應商交談,以準確了解其產品如何滿足AI和機器學習的需求。這個過程應包括展示和評估,作為任何潛在購買決策的前提。