AI驅(qū)動(dòng)對(duì)象存儲(chǔ)成為企業(yè)存儲(chǔ)主導(dǎo)技術(shù)
?關(guān)鍵洞察
- AI驅(qū)動(dòng)存儲(chǔ)轉(zhuǎn)型:AI的需求推動(dòng)了對(duì)象存儲(chǔ)成為企業(yè)存儲(chǔ)的主導(dǎo)技術(shù),尤其是對(duì)于大規(guī)模數(shù)據(jù)處理和并行計(jì)算工作負(fù)載,尤其是在AI模型訓(xùn)練、推理及數(shù)據(jù)湖倉存儲(chǔ)中。
- 對(duì)象存儲(chǔ)的普及:超過70%的云原生數(shù)據(jù)已存儲(chǔ)在對(duì)象存儲(chǔ)中,預(yù)計(jì)兩年內(nèi)這一比例將增至75%。對(duì)象存儲(chǔ)因其性能、擴(kuò)展性、安全性等特點(diǎn),成為支持AI工作負(fù)載的首選技術(shù)。
- AI工作負(fù)載對(duì)存儲(chǔ)的需求:AI(尤其是生成式AI)對(duì)存儲(chǔ)性能和規(guī)模提出更高要求,對(duì)象存儲(chǔ)能滿足這些需求,支持大規(guī)模數(shù)據(jù)集、模型訓(xùn)練、生成式AI向量數(shù)據(jù)庫等。
- AI挑戰(zhàn):盡管AI發(fā)展迅速,企業(yè)面臨的主要挑戰(zhàn)包括安全性、數(shù)據(jù)治理和高成本,尤其是在公有云中運(yùn)行AI時(shí),成本和性能成為關(guān)鍵考量因素。
- 云與私有云的平衡:雖然公有云在AI工作負(fù)載中占主導(dǎo)地位,但混合云部署日益增多,企業(yè)對(duì)私有云和公有云的結(jié)合使用感興趣,尤其是在面對(duì)成本和數(shù)據(jù)控制需求時(shí)。
- 未來存儲(chǔ)發(fā)展:隨著數(shù)據(jù)存儲(chǔ)規(guī)模和訪問需求的不斷增長(zhǎng),對(duì)象存儲(chǔ)在性能、擴(kuò)展性、安全性及簡(jiǎn)便性上的優(yōu)勢(shì)將持續(xù)推動(dòng)其在AI時(shí)代的應(yīng)用。?
數(shù)據(jù)存儲(chǔ)領(lǐng)域正經(jīng)歷一場(chǎng)深刻變革。
AI從根本上重塑了我們對(duì)數(shù)據(jù)存儲(chǔ)規(guī)模、性能及大規(guī)模并行處理能力的需求。以往,企業(yè)和組織多依賴于傳統(tǒng)的SAN/NAS架構(gòu)。然而,隨著非結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),規(guī)模已至PB級(jí)別,一個(gè)事實(shí)愈發(fā)清晰:對(duì)象存儲(chǔ)已成為企業(yè)存儲(chǔ)需求的主導(dǎo)技術(shù)。
報(bào)告中最明確的發(fā)現(xiàn)是,企業(yè)有多少比例的數(shù)據(jù)存儲(chǔ)在對(duì)象存儲(chǔ)中。IT領(lǐng)導(dǎo)者指出,企業(yè)超過70%的云原生數(shù)據(jù)存于對(duì)象存儲(chǔ)中。這一比例頗為驚人,且預(yù)計(jì)將持續(xù)增長(zhǎng)。
針對(duì)您所在組織目前在云原生存儲(chǔ)中的數(shù)據(jù)量。
據(jù)您所知,當(dāng)前哪些數(shù)據(jù)存儲(chǔ)在對(duì)象存儲(chǔ)中?
針對(duì)您所在組織的數(shù)據(jù)存儲(chǔ)演變歷程。
您認(rèn)為兩年后,數(shù)據(jù)中將有多少比率會(huì)存儲(chǔ)在對(duì)象存儲(chǔ)中?
展望未來,企業(yè)領(lǐng)導(dǎo)者計(jì)劃加大投資力度,預(yù)測(cè)兩年后,75%的云原生數(shù)據(jù)將存儲(chǔ)于對(duì)象存儲(chǔ)中。AI的發(fā)展以及面向AI的數(shù)據(jù)湖倉(Data Lakehouse)的興起,將在未來幾年進(jìn)一步推動(dòng)這一趨勢(shì),使對(duì)象存儲(chǔ)成為未來可預(yù)見時(shí)間內(nèi)的標(biāo)志性存儲(chǔ)技術(shù)。
AI的必要性
鑒于對(duì)象存儲(chǔ)在企業(yè)中占據(jù)如此重要的地位,我們向IT領(lǐng)導(dǎo)者詢問了推動(dòng)采用對(duì)象存儲(chǔ)的動(dòng)因以及哪些工作負(fù)載利用了這些對(duì)象存儲(chǔ)。
推動(dòng)您所在組織采用對(duì)象存儲(chǔ)(公有云或私有云)的前三大業(yè)務(wù)或技術(shù)因素是什么?
前三大回答是相互關(guān)聯(lián)的概念:AI項(xiàng)目需要大規(guī)模性能。在1PB規(guī)模下實(shí)現(xiàn)高性能相對(duì)容易,但在100PB規(guī)模下保持高性能則完全不同。而這正是AI工作負(fù)載的核心需求。
由于這一問題的重要性,我們從稍微不同的角度再次提出,得到的答案基本一致。
哪些工作負(fù)載使用對(duì)象存儲(chǔ)?
高級(jí)分析(Advanced Analytics),例如Spark、Presto/Trino、SQL Server和Snowflake(54%)。
這類工作負(fù)載,如網(wǎng)絡(luò)安全異常檢測(cè),需要持續(xù)的大規(guī)模吞吐能力以支持高速分析。大多數(shù)供應(yīng)商建議將架構(gòu)分割為更小的命名空間,因?yàn)樗鼈儫o法處理單一的超大規(guī)模(Exascale)命名空間。然而,這種工作負(fù)載正是對(duì)象存儲(chǔ)解決方案的典型應(yīng)用場(chǎng)景。
AI模型訓(xùn)練和推理(AI Model Training and Inference),包括LLM和RAG(51%)。
AI需要性能和規(guī)模,而對(duì)象存儲(chǔ)能夠滿足這一需求。因此,未來對(duì)象存儲(chǔ)將繼續(xù)占據(jù)優(yōu)勢(shì)。
數(shù)據(jù)湖倉存儲(chǔ)(Data Lakehouse Storage)(44%)。
數(shù)據(jù)湖倉完全基于對(duì)象存儲(chǔ)構(gòu)建,71%的受訪者表示他們已經(jīng)部署或計(jì)劃在未來12個(gè)月內(nèi)構(gòu)建數(shù)據(jù)湖倉。這表明數(shù)據(jù)湖倉已成為對(duì)象存儲(chǔ)的優(yōu)先應(yīng)用方向,并可能進(jìn)一步增長(zhǎng)。
以上三種使用場(chǎng)景都具有巨大的行業(yè)變革潛力。然而,從生成式AI的迅速崛起到傳統(tǒng)AI形式的持續(xù)重要性,這些AI工作負(fù)載目前是推動(dòng)對(duì)象存儲(chǔ)新采用的最強(qiáng)動(dòng)力。
貴組織將哪些類型的訓(xùn)練集發(fā)送到對(duì)象存儲(chǔ)中進(jìn)行AI分析?
現(xiàn)代對(duì)象存儲(chǔ)具備支持AI/ML等高要求工作負(fù)載所需的性能、可擴(kuò)展性和安全性等特性。因此,開發(fā)者選擇對(duì)象存儲(chǔ)來保存各種數(shù)據(jù)集,用于訓(xùn)練模型、微調(diào)模型,以及構(gòu)建生成式AI的向量數(shù)據(jù)庫。隨著AI應(yīng)用場(chǎng)景的不斷拓展,數(shù)據(jù)集、模型和向量數(shù)據(jù)庫的規(guī)模也將隨之增長(zhǎng)。
我們向IT領(lǐng)導(dǎo)者詢問了其組織用于AI分析的訓(xùn)練數(shù)據(jù)集類型,結(jié)果涵蓋了從地理空間數(shù)據(jù)到應(yīng)用程序數(shù)據(jù)的10種不同數(shù)據(jù)類型。其中,應(yīng)用程序數(shù)據(jù)的重要性尤為突出。雖然這一類別較為寬泛,但表明IT領(lǐng)導(dǎo)者正在嘗試從核心業(yè)務(wù)數(shù)據(jù)中挖掘更多價(jià)值。
我們還深入探討了這些IT領(lǐng)導(dǎo)者如何利用這些訓(xùn)練數(shù)據(jù)集,特別是在AI工作負(fù)載中的應(yīng)用。
貴組織目前運(yùn)行或計(jì)劃在對(duì)象存儲(chǔ)上運(yùn)行哪些類型的AI工作負(fù)載?
值得注意的是,在生成式AI(GenAI)領(lǐng)域,基于云托管LLM(Cloud Hosted LLM)和自托管LLM(Self Hosted LLM)的選擇幾乎不相上下。盡管目前公有云略占優(yōu)勢(shì),但這可能預(yù)示著企業(yè)對(duì)關(guān)鍵工作負(fù)載部署位置的考量正在發(fā)生轉(zhuǎn)變。
另一個(gè)有趣的發(fā)現(xiàn)是,傳統(tǒng)AI依然保持著強(qiáng)勁的生命力。企業(yè)并未因生成式AI的興起而忽視傳統(tǒng)AI。大量數(shù)據(jù)類型仍被用于訓(xùn)練傳統(tǒng)AI模型,這表明這些工作負(fù)載的重要性依然存在。
而自定義語料庫(Custom Corpus)的排名相對(duì)較低,這可能暗示存在一定的挑戰(zhàn)。在訓(xùn)練數(shù)據(jù)集和工作負(fù)載相關(guān)的問題中,受訪者對(duì)自定義語料庫及基于自定義語料庫的RAG的選擇均低于其他選項(xiàng)。這表明企業(yè)在構(gòu)建自定義語料庫所需的基礎(chǔ)設(shè)施、工程和實(shí)驗(yàn)方面可能面臨困難。
在具體的AI應(yīng)用場(chǎng)景方面,IT領(lǐng)導(dǎo)者的視野相對(duì)廣泛。從排名最高的威脅檢測(cè)到排名最低的物聯(lián)網(wǎng)遙測(cè),各選項(xiàng)之間的差距較小。這表明數(shù)據(jù)基礎(chǔ)設(shè)施團(tuán)隊(duì)正在積極探索如何為組織創(chuàng)造更大的業(yè)務(wù)價(jià)值。
貴組織對(duì)象存儲(chǔ)的數(shù)據(jù)應(yīng)用與哪些AI場(chǎng)景?
AI的發(fā)展并非一帆風(fēng)順。在接受調(diào)查的組織中,超過96%已經(jīng)開始運(yùn)行AI/ML工作負(fù)載,并逐漸發(fā)現(xiàn)了其中的痛點(diǎn)。我們進(jìn)一步向IT領(lǐng)導(dǎo)者提出了以下問題:
貴組織面臨的AI挑戰(zhàn)中,最具挑戰(zhàn)性的三個(gè)方面是什么?
受訪者報(bào)告指出,AI面臨的三大主要挑戰(zhàn)是:
1. 安全性和隱私問題(44%)
這一挑戰(zhàn)在IT領(lǐng)導(dǎo)者中備受關(guān)注。AI模型在數(shù)據(jù)處理和保護(hù)方面存在諸多不確定性,企業(yè)希望對(duì)數(shù)據(jù)擁有絕對(duì)控制權(quán)。他們擔(dān)心公有云提供商的數(shù)據(jù)泄露問題,不愿因此喪失競(jìng)爭(zhēng)優(yōu)勢(shì)。在AI應(yīng)用中,企業(yè)傾向于避免將數(shù)據(jù)發(fā)送至主流LLM(Large Language Models,大型語言模型)進(jìn)行推理,而是希望將數(shù)據(jù)完全保存在本地。這需要在性能和安全之間找到平衡。盡管公有云擁有豐富的GPU資源,且“時(shí)間到洞察”(Time to Insight)至關(guān)重要,但數(shù)據(jù)顯示企業(yè)更偏好私有云,尤其在部署生成式AI(GenAI)工作負(fù)載時(shí)。
2. 數(shù)據(jù)治理(27%)
與安全問題類似,AI的數(shù)據(jù)治理同樣強(qiáng)調(diào)控制權(quán)。企業(yè)領(lǐng)導(dǎo)者需要明確掌握數(shù)據(jù)的內(nèi)容,并嚴(yán)格監(jiān)管數(shù)據(jù)訪問權(quán)限。例如,當(dāng)AI或ML工程師需要從私有云提取原始數(shù)據(jù)并將其傳輸至公有云(如AWS或Google Cloud)以微調(diào)AI模型后再將數(shù)據(jù)返回私有云時(shí),數(shù)據(jù)在傳輸和存儲(chǔ)過程中必須加密。此外,私有云與公有云需要通過統(tǒng)一的身份提供商(Identity Provider)實(shí)現(xiàn)身份驗(yàn)證與授權(quán)。健全的訪問控制以及清晰的訪問記錄和變更記錄是強(qiáng)有力的數(shù)據(jù)治理的基礎(chǔ)。
3. 云原生存儲(chǔ)(25%)
云原生存儲(chǔ)為企業(yè)AI需求提供了強(qiáng)有力的支持,包括容器化、編排、RESTful API以及微服務(wù)架構(gòu)。云原生存儲(chǔ)基于軟件定義和標(biāo)準(zhǔn)化,擁有豐富的開箱即用生態(tài)系統(tǒng)。而傳統(tǒng)的SAN(Storage Area Network,存儲(chǔ)區(qū)域網(wǎng)絡(luò))和NAS(Network-Attached Storage,網(wǎng)絡(luò)附加存儲(chǔ))技術(shù)由于其硬件定義的特性,并不適合云原生環(huán)境。
AI的入門通道——數(shù)據(jù)湖倉
研究表明,傳統(tǒng)AI仍為企業(yè)創(chuàng)造著價(jià)值。另一個(gè)IT領(lǐng)導(dǎo)者關(guān)注的重點(diǎn)投資領(lǐng)域是數(shù)據(jù)湖倉架構(gòu)。回顧調(diào)查結(jié)果可以發(fā)現(xiàn),高級(jí)分析(Advanced Analytics)是最受歡迎的應(yīng)用場(chǎng)景,而現(xiàn)代數(shù)據(jù)湖/湖倉(Modern Data Lake/Lakehouses)排名第三。
許多高級(jí)分析工作負(fù)載都基于數(shù)據(jù)湖/湖倉架構(gòu)構(gòu)建,使其成為實(shí)現(xiàn)更復(fù)雜AI工作負(fù)載的重要入門通道。更重要的是,這些工作負(fù)載正在模糊“高級(jí)分析”的界限,正如Snowflake、Databricks、Dremio、Starburst、Athena和BigQuery等產(chǎn)品的最新發(fā)布所顯示的那樣。值得注意的是,這些產(chǎn)品無一例外地都構(gòu)建在對(duì)象存儲(chǔ)之上。
因此,絕大多數(shù)受訪的IT高管計(jì)劃立即利用對(duì)象存儲(chǔ)構(gòu)建大規(guī)模數(shù)據(jù)湖倉架構(gòu)。
企業(yè)運(yùn)行云基礎(chǔ)設(shè)施和對(duì)象存儲(chǔ)的現(xiàn)狀
云是一種操作模式,而非特定位置。通過容器化、編排、RESTful API(如S3)、微服務(wù)和軟件定義基礎(chǔ)設(shè)施等核心支柱,整個(gè)技術(shù)棧及其上的數(shù)據(jù)可以實(shí)現(xiàn)可移植性。
公有云的基礎(chǔ)是對(duì)象存儲(chǔ)。AWS S3、Azure Blob Storage和Google Cloud Storage等平臺(tái)的成功便印證了這一點(diǎn)。這些平臺(tái)的主要存儲(chǔ)技術(shù)均為對(duì)象存儲(chǔ)。
因此,當(dāng)被問及云基礎(chǔ)設(shè)施的部署情況時(shí),公有云的領(lǐng)先地位并不令人意外。
受訪者的組織大多已采納基于云的基礎(chǔ)設(shè)施。
這一趨勢(shì)同樣適用于新興的AI/ML工作負(fù)載。然而,需要注意的是,無論是公有云還是私有云,都存在大量的混合部署。這要求公有云和私有云基礎(chǔ)設(shè)施都必須具備云原生特性。然而,SAN/NAS或硬件設(shè)備技術(shù)由于其本質(zhì),并不具備真正的云原生特性。
貴組織當(dāng)前如何運(yùn)行AI/ML工作負(fù)載?
目前,最大的受訪者群體(48%)采用了混合部署方式,在公有云和私有云中同時(shí)運(yùn)行AI/ML工作負(fù)載。這是一個(gè)值得持續(xù)關(guān)注的數(shù)據(jù)點(diǎn)。經(jīng)濟(jì)因素可能會(huì)加速這種平衡的轉(zhuǎn)變。企業(yè)對(duì)成本的關(guān)注正使公有云逐漸變得不適合AI/ML的需求,這已推動(dòng)更多的數(shù)據(jù)遷回本地(Repatriation)以及對(duì)私有云的更廣泛使用。
最后,為了避免將企業(yè)的云使用情況簡(jiǎn)單化,我們還詢問了受訪者所使用的云數(shù)量。結(jié)果與其他研究一致,即現(xiàn)代企業(yè)通常是多云環(huán)境的用戶。
AI時(shí)代存儲(chǔ)的挑戰(zhàn)、機(jī)遇與需求
現(xiàn)代對(duì)象存儲(chǔ)為企業(yè)組織提供了支持多樣化應(yīng)用場(chǎng)景的靈活解決方案,遠(yuǎn)遠(yuǎn)超出了過去以歸檔和備份為主的用途。隨著企業(yè)對(duì)對(duì)象存儲(chǔ)依賴程度的加深,他們對(duì)對(duì)象存儲(chǔ)功能的期望也不斷提高。
研究發(fā)現(xiàn),無論在公有云還是私有云環(huán)境中,企業(yè)認(rèn)為對(duì)象存儲(chǔ)最重要的三大功能是:
另一方面,受訪者指出本地?cái)?shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施面臨的三大挑戰(zhàn)是:
盡管未進(jìn)入前三,但性能問題(37%)和擴(kuò)展性問題(31%)也被視為私有云的主要挑戰(zhàn)之一。
除了成本考量(后續(xù)會(huì)進(jìn)一步探討),這些結(jié)果揭示了選擇存儲(chǔ)技術(shù),尤其是對(duì)象存儲(chǔ)時(shí)的三個(gè)關(guān)鍵驅(qū)動(dòng)因素:
1.安全性
不僅需要高水平,還需要簡(jiǎn)單易用。無論存儲(chǔ)架構(gòu)如何,安全性始終是關(guān)鍵關(guān)注點(diǎn)和必要功能。在當(dāng)今環(huán)境中,靜態(tài)加密和傳輸加密已成為基本要求,更高水平的安全能力也成為必需條件。與知名身份提供商集成以實(shí)現(xiàn)認(rèn)證和授權(quán),使對(duì)象存儲(chǔ)能夠輕松融入現(xiàn)有數(shù)據(jù)中心。然而,安全性的一個(gè)關(guān)鍵要素是其簡(jiǎn)單性。復(fù)雜性本身就是一個(gè)攻擊面,系統(tǒng)越復(fù)雜,漏洞越多。能夠提供簡(jiǎn)單安全性的對(duì)象存儲(chǔ),使企業(yè)在更換云提供商或采用新解決方案時(shí),不會(huì)對(duì)數(shù)據(jù)安全性造成妥協(xié),同時(shí)具備更大的靈活性。
2.高成本
在選擇存儲(chǔ)解決方案時(shí),成本仍然是一個(gè)重要因素,無論是對(duì)象存儲(chǔ)還是其他類型的存儲(chǔ)。雖然成本并非對(duì)象存儲(chǔ)的核心價(jià)值驅(qū)動(dòng)因素,但它可以在不同解決方案之間起到區(qū)分作用,尤其是在比較私有云和公有云時(shí)。
數(shù)據(jù)在成本方面呈現(xiàn)出兩面性,這對(duì)IT領(lǐng)導(dǎo)者來說并不陌生。首先,私有云相較于公有云具有更好的經(jīng)濟(jì)性。
生成式AI的興起已導(dǎo)致公有云成本急劇攀升。近40%的受訪者表示,他們“非常”或“極為”擔(dān)心在云中運(yùn)行AI/ML工作負(fù)載的成本,另外29%的受訪者也表示對(duì)此有一定的擔(dān)憂。隨著規(guī)模的擴(kuò)大,訪問公有云中的數(shù)據(jù),尤其是用于訓(xùn)練和微調(diào)AI模型的數(shù)據(jù),變得越來越困難且成本高昂。調(diào)查顯示,云支出同比增長(zhǎng)了30%,Tangoe的報(bào)告還表明,72%的IT領(lǐng)導(dǎo)者表示云支出已經(jīng)變得不可控。
企業(yè)希望避免重蹈覆轍,不想再次因?yàn)樵拼鎯?chǔ)成本飆升而陷入困境——這正是Cloud FinOps(云財(cái)務(wù)運(yùn)維)行業(yè)誕生的原因。隨著AI工作負(fù)載導(dǎo)致數(shù)據(jù)存儲(chǔ)和計(jì)算成本的激增,公有云正逐漸失去其可行性,這推動(dòng)了更多的私有云使用甚至數(shù)據(jù)回遷。雖然公有云擁有大量GPU,適合用于小規(guī)模的實(shí)驗(yàn)和學(xué)習(xí),但在生產(chǎn)環(huán)境中,企業(yè)更需要控制和簡(jiǎn)化。
其次,在私有云中,硬件設(shè)備模型(appliance model)并不具有成本優(yōu)勢(shì)。43%的受訪者將成本問題列為私有云對(duì)象存儲(chǔ)方案的第二大挑戰(zhàn)。企業(yè)對(duì)硬件設(shè)備模型感到厭倦,因?yàn)樗鼤?huì)導(dǎo)致廠商鎖定并限制選擇靈活性。相反,企業(yè)希望能夠使用智能軟件、簡(jiǎn)單硬件,并且價(jià)格能夠與其部署需求相匹配。
軟件定義存儲(chǔ)(SDS)提供了企業(yè)所需的靈活性、控制力和杠桿作用——這也是它成為當(dāng)前及未來首選架構(gòu)的原因。然而,由于成本優(yōu)勢(shì),許多企業(yè)正在選擇將某些工作負(fù)載回遷到私有云基礎(chǔ)設(shè)施。
3.數(shù)據(jù)管理與規(guī)模化性能需求
如前所述,云是一種操作模式,而非特定位置。與其相適應(yīng)的存儲(chǔ)即為云原生存儲(chǔ)(Cloud-native Storage)。不符合這一特性的存儲(chǔ)通常即為硬件設(shè)備。
四分之一的IT領(lǐng)導(dǎo)者表示,他們?cè)诠芾砗驼纤接性茖?duì)象存儲(chǔ)時(shí)遇到了困難。其原因或在于他們采用了硬件設(shè)備模型。硬件設(shè)備無法容器化,本質(zhì)上并非云原生。
基于硬件的存儲(chǔ)系統(tǒng)作為一種固定的硬件中心化解決方案,固有地受到其物理限制和靜態(tài)架構(gòu)的約束。它缺乏與容器化應(yīng)用程序和現(xiàn)代云原生工作流無縫集成的靈活性。硬件設(shè)備通常需要手動(dòng)擴(kuò)展,這迫使企業(yè)過度配置存儲(chǔ),導(dǎo)致效率低下和成本增加。此外,硬件設(shè)備依賴于專有硬件,使得它們不適用于需要靈活性、可擴(kuò)展性和分布式操作的環(huán)境。
相比之下,軟件定義的云原生對(duì)象存儲(chǔ)體現(xiàn)了云操作模型的原則。它與特定硬件解耦,可以在任何基礎(chǔ)設(shè)施上部署,無論是本地、公有云中,還是在混合部署環(huán)境中。云原生對(duì)象存儲(chǔ)能夠彈性擴(kuò)展,根據(jù)需求調(diào)整容量,并與Kubernetes等編排工具無縫集成。該模型還利用API進(jìn)行自動(dòng)化和可編程性,幫助IT團(tuán)隊(duì)高效管理大規(guī)模的分布式數(shù)據(jù)環(huán)境。
這些因素推動(dòng)了存儲(chǔ)技術(shù)選擇標(biāo)準(zhǔn)的轉(zhuǎn)變。當(dāng)我們?cè)儐朓T領(lǐng)導(dǎo)者如何排序選擇對(duì)象存儲(chǔ)(公有云或私有云)時(shí),他們提供了以下反饋:
在您看來,選擇對(duì)象存儲(chǔ)(公有云或私有云)時(shí),最重要的因素是什么?
大規(guī)模數(shù)據(jù)存儲(chǔ)的運(yùn)營(yíng):何為、為何、如何
操作細(xì)節(jié)非常重要,我們向受訪者請(qǐng)求了一些關(guān)于其存儲(chǔ)系統(tǒng)架構(gòu)、背后硬件以及相關(guān)團(tuán)隊(duì)的數(shù)據(jù)。以下是部分?jǐn)?shù)據(jù)。
可擴(kuò)展性一直是推動(dòng)對(duì)象存儲(chǔ)崛起的關(guān)鍵因素之一。如今,隨著AI和分析對(duì)存儲(chǔ)和檢索大量數(shù)據(jù)的靈活性需求不斷增加,企業(yè)對(duì)性能和規(guī)模的要求比以往任何時(shí)候都更高。在各種基礎(chǔ)設(shè)施中,對(duì)象存儲(chǔ)提供了容量、性能和簡(jiǎn)便性,使企業(yè)數(shù)據(jù)能夠達(dá)到新的高度。
我們的研究發(fā)現(xiàn),近20%的云端對(duì)象存儲(chǔ)部署規(guī)模至少為10PB。在這個(gè)規(guī)模上,大多數(shù)技術(shù)開始出現(xiàn)裂痕。這是傳統(tǒng)API(如POSIX)變得過于冗長(zhǎng)或第三方元數(shù)據(jù)數(shù)據(jù)庫出現(xiàn)故障的時(shí)刻。更重要的是,市場(chǎng)上的每個(gè)預(yù)測(cè)都表明,企業(yè)數(shù)據(jù)正在以超過60%的年復(fù)合增長(zhǎng)率(CAGR)增長(zhǎng)。
這意味著典型的對(duì)象存儲(chǔ)集群將增大規(guī)模。這是由于無結(jié)構(gòu)數(shù)據(jù)的持續(xù)增長(zhǎng)(預(yù)計(jì)年增長(zhǎng)率為55%-65%),這些數(shù)據(jù)用于訓(xùn)練傳統(tǒng)AI和生成式AI模型,并且在各類應(yīng)用中的對(duì)象存儲(chǔ)使用也在增加。云對(duì)象存儲(chǔ)市場(chǎng)也有望從2023年的65億美元增長(zhǎng)到2031年的180億美元,幾乎是其三倍,顯示出更廣泛的采用和更大規(guī)模的部署。
對(duì)象的大小也很重要。能夠在小型對(duì)象上良好運(yùn)行是頂級(jí)對(duì)象存儲(chǔ)的一個(gè)顯著特點(diǎn)。盡管如此,大多數(shù)對(duì)象的大小都在MB級(jí)別。
企業(yè)級(jí)對(duì)象存儲(chǔ)中的典型對(duì)象大小是多少?
網(wǎng)絡(luò)是一個(gè)動(dòng)態(tài)變化的領(lǐng)域,AI無疑處于這一變化的推動(dòng)之中。幾年前被認(rèn)為極為快速的100GbE網(wǎng)絡(luò)如今已成為基礎(chǔ)設(shè)施標(biāo)準(zhǔn)。接近一半的受訪者(43%)表示,他們組織中的對(duì)象存儲(chǔ)集群的典型網(wǎng)絡(luò)速度為100GbE或更快。這些高速網(wǎng)絡(luò)的出現(xiàn)與高吞吐量、高性能對(duì)象存儲(chǔ)的采用趨勢(shì)相一致。傳統(tǒng)的對(duì)象存儲(chǔ)應(yīng)用(如歸檔和備份)不需要如此高的帶寬,但像災(zāi)難恢復(fù)這樣的工作負(fù)載(41%的受訪者表示使用對(duì)象存儲(chǔ)進(jìn)行災(zāi)難恢復(fù))確實(shí)需要這種性能。
對(duì)速度的需求也體現(xiàn)在驅(qū)動(dòng)器類型上。現(xiàn)在,我們生活在一個(gè)NVMe/SSD的世界中,這反映了它們相較于HDD在性能和密度方面的優(yōu)勢(shì)。
在未來三年,NVMe預(yù)計(jì)將成為最大的增長(zhǎng)領(lǐng)域,在企業(yè)中的數(shù)據(jù)份額預(yù)計(jì)將增加3個(gè)百分點(diǎn)。
貴組織當(dāng)前在以下存儲(chǔ)平臺(tái)中存儲(chǔ)的數(shù)據(jù)比例是多少?未來三年,NVMe預(yù)計(jì)將成為增長(zhǎng)最快的領(lǐng)域,在企業(yè)中的數(shù)據(jù)份額預(yù)計(jì)將增加3個(gè)百分點(diǎn)。
存儲(chǔ)團(tuán)隊(duì)的動(dòng)態(tài)是一個(gè)值得關(guān)注的領(lǐng)域。盡管IT運(yùn)營(yíng)/基礎(chǔ)設(shè)施顯然是主導(dǎo)力量,但它絕不是唯一參與存儲(chǔ)管理的團(tuán)隊(duì)。許多團(tuán)隊(duì)都在參與其中,這也符合當(dāng)前數(shù)據(jù)幾乎是每個(gè)組織核心資產(chǎn)的事實(shí)。
哪些團(tuán)隊(duì)參與了貴組織的存儲(chǔ)管理?
話雖如此,DevOps、開發(fā)和數(shù)據(jù)團(tuán)隊(duì)顯然都在其中扮演著重要角色。
根據(jù)您的經(jīng)驗(yàn),管理PB級(jí)數(shù)據(jù)需要多大的團(tuán)隊(duì)?
說到團(tuán)隊(duì)合作,管理PB級(jí)數(shù)據(jù)需要一個(gè)完整的團(tuán)隊(duì)。在受訪組織中,超過三分之二的受訪者表示,管理這種規(guī)模的數(shù)據(jù)至少需要四名或更多的全職員工。
總結(jié):一個(gè)以AI為中心、以對(duì)象存儲(chǔ)為主導(dǎo)的世界
到2024年,大多數(shù)企業(yè)的數(shù)據(jù)已經(jīng)存儲(chǔ)在對(duì)象存儲(chǔ)中,這一趨勢(shì)預(yù)計(jì)將持續(xù)增長(zhǎng)。對(duì)象存儲(chǔ)主導(dǎo)地位的兩個(gè)關(guān)鍵原因很明確:
對(duì)象存儲(chǔ)不僅支持AI,還推動(dòng)AI的發(fā)展,滿足安全需求,解決成本和可擴(kuò)展性問題,并支持跨工作負(fù)載的高性能。
企業(yè)在數(shù)據(jù)存儲(chǔ)上優(yōu)先考慮大規(guī)模性能,可能比其他任何因素都更為重要。他們希望獲得云原生世界中傳統(tǒng)SAN/NAS技術(shù)難以提供的靈活性和簡(jiǎn)便性。
不斷攀升的公有云成本不可持續(xù)——但顯然,成本在選擇工作負(fù)載和可擴(kuò)展性時(shí)不是最重要的因素。我們可以推測(cè),在成本和功能之間做出選擇時(shí),企業(yè)將更加注重后者。在所有可用的解決方案中,運(yùn)行在私有云上的軟件定義存儲(chǔ)最有可能讓企業(yè)獲得所需的一切。
本文轉(zhuǎn)載自 ??Andy730??,作者: 常華Andy
