成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)湖演進(jìn)之路:架構(gòu)分裂推動AI分析的新時代

人工智能
數(shù)據(jù)湖這個詞在21世紀(jì)10年代初出現(xiàn)的時候,有些人認(rèn)為它是在恰當(dāng)?shù)臅r間出現(xiàn)的一種恰當(dāng)?shù)募軜?gòu)。數(shù)據(jù)湖是一種非結(jié)構(gòu)化的數(shù)據(jù)存儲庫,利用了新的低成本云對象存儲格式(如Amazon S3),可以容納來自網(wǎng)絡(luò)的大量數(shù)據(jù)。

數(shù)據(jù)湖這個詞在21世紀(jì)10年代初出現(xiàn)的時候,有些人認(rèn)為它是在恰當(dāng)?shù)臅r間出現(xiàn)的一種恰當(dāng)?shù)募軜?gòu)。數(shù)據(jù)湖是一種非結(jié)構(gòu)化的數(shù)據(jù)存儲庫,利用了新的低成本云對象存儲格式(如Amazon S3),可以容納來自網(wǎng)絡(luò)的大量數(shù)據(jù)。

然而,對其他人來說,數(shù)據(jù)湖是一個很容易被嘲笑的“市場結(jié)構(gòu)”,他們將其稱之為“數(shù)據(jù)沼澤”。這個陣營中的許多人青睞長期存在、但并不便宜的關(guān)系數(shù)據(jù)倉庫。

盡管存在懷疑,但數(shù)據(jù)湖已經(jīng)發(fā)展和成熟,成為當(dāng)今AI和分析領(lǐng)域的重要組成部分。

隨著生成式AI讓焦點(diǎn)重新回到了數(shù)據(jù)架構(gòu)上,我們就來仔細(xì)研究一下數(shù)據(jù)湖是如何演化的,以及數(shù)據(jù)湖在推動高級AI分析方面所發(fā)揮的作用。

市場對數(shù)據(jù)湖的需求

對于那些在電子商務(wù)和相關(guān)領(lǐng)域追求數(shù)據(jù)驅(qū)動洞察的年輕公司來說,實(shí)施數(shù)據(jù)湖的好處是多方面的。

亞馬遜、谷歌、雅虎、Netflix、Facebook和其他公司都構(gòu)建了他們自己的數(shù)據(jù)工具。這些工具通常是基于Apache Hadoop和Spark分布式引擎的。這些新型系統(tǒng)處理的數(shù)據(jù)類型,要比當(dāng)時分析數(shù)據(jù)倉庫中現(xiàn)有關(guān)系數(shù)據(jù)類型的結(jié)構(gòu)性更低一些。

對于那個時代的系統(tǒng)工程師來說,這種架構(gòu)顯示出了一些好處。“沼澤”或“湖泊”,它將成為搜索、異常檢測、價格優(yōu)化、客戶分析、推薦引擎等先鋒應(yīng)用的基礎(chǔ)。

這種更為靈活的數(shù)據(jù)處理,是成長中的網(wǎng)絡(luò)巨頭的首要需求。《Distributed Analytics》一書的作者Thomas Dinsmore稱,文本、圖像、音頻、視頻和其他數(shù)據(jù)“海嘯”根本不適合關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫處理。另一個缺點(diǎn)是:隨著每一批數(shù)據(jù)的加載,數(shù)據(jù)倉庫成本也隨之增長。

不管人們是否喜歡,數(shù)據(jù)湖如今仍在不斷地填充數(shù)據(jù)。在數(shù)據(jù)處理過程中,數(shù)據(jù)工程師可以“立即存儲”并決定以后如何處理數(shù)據(jù)。不過,基本的數(shù)據(jù)湖架構(gòu)已經(jīng)擴(kuò)展為更高級的數(shù)據(jù)發(fā)現(xiàn)和管理功能。

這一演變趨勢是由自建解決方案以及Databricks、Snowflake等一流初創(chuàng)公司的解決方案引領(lǐng)的,但還有更多公司參與其中。隨著數(shù)據(jù)中心規(guī)劃人員著眼于新的AI領(lǐng)域,各種架構(gòu)如今也在受到密切關(guān)注。

數(shù)據(jù)湖演進(jìn):從湖泊到湖屋

數(shù)據(jù)湖這場競賽的參與者包括Amazon Lake Formation、Cloudera Open Data Lakehouse、Dell Data Lakehouse、Dremio Lakehouse Platform、Google BigLake、IBM Watsonx. Data、Microsoft Azure Data Lake Storage、Oracle Cloud Infrastructure、Scality Ring和Starburst Galaxy等。

正如上述列舉所示,趨勢是將產(chǎn)品稱為“數(shù)據(jù)湖屋”,而不是“數(shù)據(jù)湖”。這個名字更類似于用于處理結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)數(shù)據(jù)倉庫。是的,這代表了另一個牽強(qiáng)的類比,就像之前的數(shù)據(jù)湖一樣,受到了人們的審視。

在數(shù)據(jù)市場中,命名是一門藝術(shù)。如今,那些解決數(shù)據(jù)湖最初缺陷的系統(tǒng)被指定為集成數(shù)據(jù)平臺、混合數(shù)據(jù)管理解決方案等,但奇怪的命名約定不能掩蓋功能方面的重要進(jìn)步。

如今,在升級的分析平臺中,不同的數(shù)據(jù)處理組件以流水線方式連接。新數(shù)據(jù)工廠所取得的成果可能集中在以下幾個方面:

  • 新的表格式:例如,Delta Lake和Iceberg是建立在云對象存儲之上的,為Apache Spark、Hadoop和其他數(shù)據(jù)處理系統(tǒng)提供了ACID事務(wù)支持。經(jīng)常關(guān)聯(lián)的Parquet格式可以幫助優(yōu)化數(shù)據(jù)壓縮。
  • 元數(shù)據(jù)目錄:Snowflake Data Catalog和Databricks Unify Catalog等只是執(zhí)行數(shù)據(jù)發(fā)現(xiàn)和跟蹤數(shù)據(jù)沿襲的一些工具。后者特性對于確保分析的數(shù)據(jù)質(zhì)量至關(guān)重要。
  • 查詢引擎:查詢引擎為存儲為各種類型和位置的數(shù)據(jù)的高性能查詢提供了通用的SQL接口。PrestoDB、Trinio和Apache Spark就是其中幾個例子。

這些進(jìn)展使數(shù)據(jù)分析更有條理、更高效和更易于控制。

隨之而來的,是向“現(xiàn)在攝取,以后轉(zhuǎn)換”方法的轉(zhuǎn)變。這是對數(shù)據(jù)倉庫熟悉的提取轉(zhuǎn)換加載(ETL)數(shù)據(jù)暫存序列的一種顛覆,現(xiàn)在解決方案可能是提取加載轉(zhuǎn)換(ELT)了。

不管叫什么名字,這都是高級數(shù)據(jù)架構(gòu)的決定性時刻,恰逢新的生成式AI出現(xiàn)了。但總體來看,它從垃圾抽屜柜到定義更明確的容器,這個演變發(fā)展的過程是很緩慢的。

數(shù)據(jù)湖安全和治理問題

“數(shù)據(jù)湖導(dǎo)致了大數(shù)據(jù)的慘敗。它們剛出現(xiàn)時你什么都找不到,”SanjMo技術(shù)咨詢公司負(fù)責(zé)人Sanjeev Mohan說,那個時候就沒有治理或安全。

Mohan解釋說,人們需要的是護(hù)欄,保護(hù)數(shù)據(jù)免受未經(jīng)授權(quán)的訪問,并遵守GDPR等治理標(biāo)準(zhǔn),這意味著要應(yīng)用元數(shù)據(jù)技術(shù)來識別數(shù)據(jù)。

“主要的需求是安全性。這就需要細(xì)粒度的訪問控制——而不僅僅是將文件扔進(jìn)數(shù)據(jù)湖就行了,”他補(bǔ)充說,現(xiàn)在有更好的數(shù)據(jù)湖方法可以解決這個問題,組織中的不同角色反映在不同的權(quán)限設(shè)置中。

這種控制方式在早期的數(shù)據(jù)湖中并不常見,早期的數(shù)據(jù)湖主要是“僅追加”系統(tǒng),很難更新。

新的表格格式改變了這種情況。近年來,Delta Lake、Iceberg和Hudi等表格格式應(yīng)運(yùn)而生,在數(shù)據(jù)更新支持方面取得了顯著的進(jìn)步。

Sanjeev Mohan表示,Iceberg等工具的標(biāo)準(zhǔn)化和廣泛可用性,為最終用戶在選擇系統(tǒng)時提供了更多優(yōu)勢,從而節(jié)省了成本并增強(qiáng)了技術(shù)控制。

用于生成式AI的數(shù)據(jù)湖

如今,生成式AI位列很多企業(yè)待辦事項(xiàng)清單之首,而數(shù)據(jù)湖和數(shù)據(jù)湖庫與這一現(xiàn)象是密切相關(guān)的。生成式AI模型要在大量數(shù)據(jù)上運(yùn)行,與此同時計算成本可能會飆升。

隨著領(lǐng)先科技公司的專家們參與其中,AI與數(shù)據(jù)管理之間日益緊密的聯(lián)系揭示了未來的關(guān)鍵機(jī)遇和障礙:

“生成式AI將改變數(shù)據(jù)管理”

AWS數(shù)據(jù)湖和分析副總裁Ganapathy Krishnamoorthy這樣表示。AWS是S3對象存儲和大量云數(shù)據(jù)工具的創(chuàng)始方。

Krishnamoorthy表示,數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)湖屋將有助于改進(jìn)生成式AI,但這也是一條雙向道路。

生成式AI正在培育各種成果以大大增強(qiáng)數(shù)據(jù)處理過程本身,其中包括數(shù)據(jù)準(zhǔn)備、構(gòu)建BI儀表板和創(chuàng)建ETL管道。

“有了生成式AI,我們就有了獨(dú)特的機(jī)會來解決數(shù)據(jù)管理模糊的問題,比如數(shù)據(jù)清理,”Krishnamoorthy說。“以前這一直是一項(xiàng)人類活動,而自動化是有挑戰(zhàn)性的。而現(xiàn)在我們可以應(yīng)用生成式AI技術(shù)來獲得相當(dāng)高的準(zhǔn)確性。實(shí)際上,你可以使用基于自然語言的交互來完成其中一部分工作,從而大大提高工作效率。”

Krishnamoorthy表示,越來越多的企業(yè)將跨多個數(shù)據(jù)湖連接工作,專注于更高程度的自動化操作來增強(qiáng)數(shù)據(jù)的可發(fā)現(xiàn)性。

“AI數(shù)據(jù)湖將帶來更具彈性的數(shù)據(jù)中心”

這是Hadoop先驅(qū)Cloudera公司首席產(chǎn)品官Dipto Chakravarty的觀點(diǎn),該公司還在不斷地提供面向數(shù)據(jù)的新工具。

他說,AI正在挑戰(zhàn)現(xiàn)有的游戲規(guī)則,這意味著數(shù)據(jù)湖工具可以縮小也可以擴(kuò)大,支持?jǐn)?shù)據(jù)中心和云端的靈活計算。

“在某些月份的某些日子,數(shù)據(jù)團(tuán)隊希望將東西移到本地。其他時候,他們又想將其移回云端。但是,當(dāng)你來回移動所有這些數(shù)據(jù)工作負(fù)載時,就會產(chǎn)生負(fù)擔(dān),”Chakravarty說。

當(dāng)CFO們開始關(guān)注AI的“稅收”——也就是對支出的影響時,數(shù)據(jù)中心就成為了試驗(yàn)場。IT領(lǐng)導(dǎo)者將專注于把計算帶入數(shù)據(jù),實(shí)現(xiàn)真正的彈性可擴(kuò)展性。

“AI基礎(chǔ)模型的輸出定制化是關(guān)鍵”

IBM Watsonx平臺產(chǎn)品營銷副總裁Edward Calvesbert表示,這就是賦予它業(yè)務(wù)語言的方式。IBM在21世紀(jì)10年代中期通過Watson認(rèn)知計算工作推動了當(dāng)今AI的復(fù)興。

他說:“你可以使用數(shù)據(jù)定制AI,它將以你希望的方式從用例和質(zhì)量角度有效地代表你的企業(yè)。”

Calvesbert表示,Watsonx數(shù)據(jù)是Watsonx生態(tài)系統(tǒng)中數(shù)據(jù)中央存儲庫,現(xiàn)在支撐著AI的定制化,這些模型可以共置在企業(yè)的IT環(huán)境中。

定制應(yīng)該是和新AI時代的數(shù)據(jù)治理相輔相成的。他說:“治理措施提供了生命周期管理和監(jiān)控護(hù)欄,確保遵守你自己公司的政策以及任何監(jiān)管政策。”

“更多本地處理即將到來”

這是Starburst公司董事長兼首席執(zhí)行官Justin Borgman的說法,該公司將Trino SQL查詢引擎的早期工作轉(zhuǎn)化為成熟的數(shù)據(jù)湖屋產(chǎn)品,可以從湖屋之外提取數(shù)據(jù)。

他說,精心打造的數(shù)據(jù)湖和湖屋對于支持AI工作負(fù)載(包括與生成式AI相關(guān)的工作負(fù)載)來說至關(guān)重要,我們將看到,人們對混合數(shù)據(jù)架構(gòu)的興趣激增,一部分原因就是AI和機(jī)器學(xué)習(xí)的興起。

“圍繞AI的這種勢頭將把越來越多的數(shù)據(jù)帶回到本地環(huán)境或者混合環(huán)境中。企業(yè)不會想把所有的數(shù)據(jù)和AI模型都發(fā)送到云端的,因?yàn)榘褦?shù)據(jù)從云端轉(zhuǎn)移到云端的成本很高。”

Borgman指出,使用本質(zhì)上與存儲分離的查詢和計算引擎是一種主導(dǎo)趨勢,可以在人們已經(jīng)擁有的多樣化數(shù)據(jù)基礎(chǔ)設(shè)施中以及跨多個數(shù)據(jù)湖發(fā)揮作用,通常被稱為“將計算轉(zhuǎn)移到數(shù)據(jù)”。

數(shù)據(jù)越多越好嗎?

AI工作負(fù)載基于未分類的、不充分的、或者無效的數(shù)據(jù),這成了一個日益嚴(yán)重的問題。但正如數(shù)據(jù)湖發(fā)展歷程所表明的,這是一個可以通過數(shù)據(jù)管理解決的已知問題。

IT Market Strategy獨(dú)立分析師Merv Adrian表示,顯然,如果數(shù)據(jù)無法被理解,那么訪問大量數(shù)據(jù)是沒有用的。

“如果可以使用數(shù)據(jù),數(shù)據(jù)越多總是越好的。但如果不能,數(shù)據(jù)就沒有任何用處,”他說。

Adrian認(rèn)為,Iceberg和Delta Lake等軟件的定位是位于海量數(shù)據(jù)之上的一種描述層,將有助于AI和機(jī)器學(xué)習(xí)式的分析。投資于這些類型技術(shù)的組織,在進(jìn)入這個美麗新世界時將獲得優(yōu)勢。

但AI開發(fā)真正的好處,是團(tuán)隊在使用這些工具所獲得的技能,Adrian說。

“數(shù)據(jù)湖、數(shù)據(jù)倉庫及其數(shù)據(jù)湖屋分支使企業(yè)能夠使用更多類型和更多數(shù)據(jù)量,這對生成式AI模型很有幫助,這些模型在對大型多樣化數(shù)據(jù)集進(jìn)行訓(xùn)練時會得到改進(jìn)。”

如今,數(shù)據(jù)湖以某種形式存在。Mohan或許說得最好:“數(shù)據(jù)湖并沒有消失。數(shù)據(jù)湖萬歲!”

責(zé)任編輯:龐桂玉 來源: 至頂網(wǎng)
相關(guān)推薦

2024-01-03 09:51:43

物聯(lián)網(wǎng)IOT數(shù)據(jù)安全

2024-03-15 11:17:07

物聯(lián)網(wǎng)IoT人工智能

2025-03-07 08:31:34

2017-05-22 20:31:42

華為

2011-06-28 14:22:22

H3C數(shù)據(jù)中心虛擬化

2025-05-12 09:34:39

2017-03-21 13:00:05

網(wǎng)絡(luò)融合光網(wǎng)絡(luò)通信網(wǎng)絡(luò)

2018-08-31 17:37:52

intel云計算AI

2022-06-17 18:32:54

開源大數(shù)據(jù)數(shù)據(jù)調(diào)度

2016-03-15 16:24:47

集群調(diào)度框架演進(jìn)

2014-03-12 09:37:26

計算創(chuàng)新智能英特爾

2024-10-10 16:16:32

2023-07-02 11:14:21

工具TypeScript框架

2025-05-14 08:23:35

2024-09-30 15:19:41

2014-01-15 09:09:56

2016-11-09 15:57:50

2017-01-22 15:43:47

數(shù)據(jù)架構(gòu)演進(jìn)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 你懂的av| 日韩另类 | 国产成人99久久亚洲综合精品 | 玖玖视频国产 | 一区免费 | 99精品在线观看 | 狠狠操狠狠色 | 精品区| 黄在线免费观看 | 午夜免费精品视频 | 精品自拍视频在线观看 | 色婷婷一区 | 亚洲精品亚洲人成人网 | 成人欧美一区二区三区在线播放 | 亚洲三区在线观看 | 夜夜爽99久久国产综合精品女不卡 | 国内精品久久久久久 | 成人高清在线 | 狠狠的干狠狠的操 | 中文字幕在线观看av | 欧美日韩国产一区二区 | 四虎永久免费地址 | 成人精品在线观看 | 国产亚洲精品久久久久久豆腐 | 欧美综合在线视频 | 精品综合久久 | 一区二区在线看 | 91精品久久久久久久久中文字幕 | 日日久| 一区二区免费视频 | 国产91一区 | 久久亚洲一区二区三区四区 | 日韩精品一区二区三区在线播放 | 国产欧美日韩精品一区 | 精品99在线 | 天天干狠狠 | 日韩中文字幕一区 | 91精品国产综合久久福利软件 | 欧美中文字幕一区二区三区亚洲 | 免费久久久 | 中文字字幕一区二区三区四区五区 |