成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

針對(duì)實(shí)時(shí)AI和ML的特征存儲(chǔ)平臺(tái)

譯文 精選
人工智能
公司在選擇他們的在線特征存儲(chǔ)之前,通常會(huì)執(zhí)行全面的基準(zhǔn)測(cè)試,以比較哪一種架構(gòu)是最高效且具有成本效益的。本文將和您討論四種成功部署了實(shí)時(shí) AI/ML 用例的開(kāi)源與商業(yè)化的特征存儲(chǔ)架構(gòu)和基準(zhǔn)。

譯者 | 陳峻

公司在選擇他們的在線特征存儲(chǔ)之前,通常會(huì)執(zhí)行全面的基準(zhǔn)測(cè)試,以比較哪一種架構(gòu)是最高效且具有成本效益的。本文將和您討論四種成功部署了實(shí)時(shí) AI/ML 用例的開(kāi)源與商業(yè)化的特征存儲(chǔ)架構(gòu)和基準(zhǔn)。

如今,隨著欺詐預(yù)防和個(gè)性化推薦等實(shí)際商業(yè)用例的廣泛使用,特征存儲(chǔ)(Feature Stores)在將AI/ML技術(shù)實(shí)時(shí)、成功地部署到生產(chǎn)環(huán)境的過(guò)程中,發(fā)揮著關(guān)鍵性的作用。

目前最流行的開(kāi)源特征存儲(chǔ)平臺(tái)之一當(dāng)屬Feast。用戶在其Slack社區(qū)(https://slack.feast.dev/)中提及最多的便是Feast的可擴(kuò)展性與性能。畢竟,對(duì)于實(shí)時(shí)的AI/ML特征存儲(chǔ)而言,最重要的指標(biāo)便是被用于在線預(yù)測(cè)或評(píng)分的ML模型的特征服務(wù)速度。

通常,成功的特征存儲(chǔ)應(yīng)當(dāng)滿足如下嚴(yán)格的要求:

  • 低延遲(以毫秒為單位)
  • 一致性(以99%的情況結(jié)果來(lái)衡量)
  • 成規(guī)模(每秒高達(dá)十萬(wàn)、甚至百萬(wàn)的查詢量,以及千兆、甚至TB字節(jié)的數(shù)據(jù)集)
  • 較低的總體擁有成本和高精確度

公司在選擇他們的在線特征存儲(chǔ)之前,通常會(huì)執(zhí)行全面的基準(zhǔn)測(cè)試,以比較哪一種架構(gòu)是最高效且具有成本效益的。下面,我們將和您一起討論四種成功部署了實(shí)時(shí)AI/ML用例的開(kāi)源與商業(yè)化的特征存儲(chǔ)架構(gòu)和基準(zhǔn)。

1.開(kāi)源的Feast

我們先來(lái)看看Feast(https://feast.dev/)開(kāi)源特征存儲(chǔ)的基準(zhǔn)數(shù)據(jù)、及其數(shù)據(jù)架構(gòu)。在其最近的一個(gè)基準(zhǔn)測(cè)試中,F(xiàn)east比較了使用不同的在線存儲(chǔ)(即Redis、Google Cloud DataStore和AWS DynamoDB)時(shí)特征服務(wù)的延遲,并比較了使用不同機(jī)制的提取特征(如Java gRPC服務(wù)器、Python HTTP服務(wù)器、以及l(fā)ambda函數(shù)等)時(shí)的速度。您可以從鏈接—https://feast.dev/blog/feast-benchmarks/,了解完整的基準(zhǔn)測(cè)試設(shè)置及其結(jié)果。其中,F(xiàn)east發(fā)現(xiàn)在使用Java gRPC服務(wù)器與Redis組合作為在線存儲(chǔ)時(shí),性能最高。

來(lái)源:https://www.applyconf.com/agenda/using-feast-in-a-ranking-syst

在上圖中,您可以看到知名的在線抵押貸款公司Better.com是如何使用開(kāi)源的Feast特征存儲(chǔ),來(lái)構(gòu)建對(duì)其潛在客戶的評(píng)分排名系統(tǒng)。Better.com的高級(jí)軟件工程師Vitaly Sergey介紹了從離線存儲(chǔ)(S3、Snowflake和Redshift)到在線存儲(chǔ)(Redis)的過(guò)程。同時(shí),他們也將特征從流媒體源(Kafka的各個(gè)主題)攝取到了在線存儲(chǔ)。Feast最近也添加了對(duì)于流式數(shù)據(jù)源(除了批處理數(shù)據(jù)源)的支持,不過(guò)目前僅支持Redis。

由于此類用例需要依賴實(shí)時(shí)數(shù)據(jù),因此支持流式數(shù)據(jù)源對(duì)于實(shí)時(shí)的AI/ML用例是非常重要的。例如,在該評(píng)分用例中,新的潛在客戶數(shù)據(jù)被實(shí)時(shí)地?cái)z取到。只要有一個(gè)新的潛在客戶被發(fā)現(xiàn),它就會(huì)被模型攝取并予以評(píng)分,同時(shí)它會(huì)被攝取到在線存儲(chǔ)中,以便我們?cè)诤罄m(xù)對(duì)其進(jìn)行重新排名。同時(shí),Better.com會(huì)讓潛在客戶在48小時(shí)后過(guò)期。這是在Redis在線存儲(chǔ)中實(shí)現(xiàn)的。他們只需將TTL(生存時(shí)間,time to live)設(shè)置為48小時(shí),那么實(shí)體(即潛在客戶)與關(guān)聯(lián)特征向量就會(huì)在48小時(shí)后過(guò)期。也就是說(shuō),特征存儲(chǔ)會(huì)自動(dòng)自行清理,以保證沒(méi)有舊的實(shí)體或特征占用寶貴的在線存儲(chǔ)空間。

Feast的另一個(gè)實(shí)現(xiàn)是Microsoft Azure的特征存儲(chǔ)(https://techcommunity.microsoft.com/t5/ai-customer-engineering-team/bringing-feature-store-to-azure-from-microsoft-azure-redis-and/ba-p/2918917)。你可以通過(guò)鏈接--https://techcommunity.microsoft.com/t5/image/serverpage/image-id/323561i3F763F78F483587D/image-size/large?v=v2&px=999,來(lái)參考它的架構(gòu)。它運(yùn)行在針對(duì)低延遲實(shí)時(shí)AI/ML用例進(jìn)行過(guò)優(yōu)化的Azure云上,能夠支持批處理和流式數(shù)據(jù)源,并集成到Azure數(shù)據(jù)和AI生態(tài)系統(tǒng)中。各種特征從批處理源(Azure Synapse Serverless SQL、Azure Storage/ADLS)和流式源(Azure Event Hub)被攝取到在線存儲(chǔ)處。在線存儲(chǔ)使用的是帶有Enterprise Tiers of Azure Redis的Azure Cache,包括了通過(guò)主動(dòng)異地復(fù)制,來(lái)創(chuàng)建具有高達(dá)99.999%可用性的全局分布式緩存。因此,如果您的應(yīng)用已經(jīng)部署在Azure上,或熟悉Azure生態(tài)系統(tǒng),那么此類特征存儲(chǔ)就比較適合。此外,通過(guò)使用Enterprise Flash層在分層內(nèi)存架構(gòu)上運(yùn)行Redis,并使用內(nèi)存(DRAM)和閃存(NVMe或SSD)來(lái)存儲(chǔ)數(shù)據(jù),還可以進(jìn)一步降低成本。

2.Wix將DIY特征存儲(chǔ)作為MLOps平臺(tái)的基石

流行的網(wǎng)站建設(shè)平臺(tái)Wix(https://www.wix.com/)將特征存儲(chǔ)架構(gòu)用于諸如推薦、生產(chǎn)、溢價(jià)、預(yù)測(cè)、排名、以及垃圾郵件分類器等MLOps平臺(tái)應(yīng)用中。雖然Wix能夠?yàn)槌^(guò)2億的注冊(cè)用戶提供服務(wù),但是在任何給定的時(shí)間內(nèi),通常只有少部分的活躍用戶。因此,這對(duì)特征存儲(chǔ)的實(shí)現(xiàn)方式提出了一定的影響。下圖源自Wix的ML Engineering領(lǐng)導(dǎo)Ran Romano在TechTalk上的演示文稿(https://youtu.be/E8839ENL-WY?t=2061)。Wix的特征存儲(chǔ)中存儲(chǔ)著超過(guò)90%的點(diǎn)擊流,ML模型可以按照網(wǎng)站或用戶被觸發(fā)。Ran解釋說(shuō),對(duì)于生產(chǎn)環(huán)境中的實(shí)時(shí)用例而言,他們需要在幾毫秒內(nèi)提取特征向量,因此需要避免延遲。

來(lái)源:https://youtu.be/E8839ENL-WY?t=2061

如上圖所示,原始數(shù)據(jù)被存儲(chǔ)在AWS Parquet文件的S3存儲(chǔ)桶中,并按業(yè)務(wù)單元(如“編輯”、“餐廳”、“預(yù)訂”等)以及日期進(jìn)行分區(qū)。在使用Spark SQL的日常構(gòu)建批處理過(guò)程(需要幾分鐘到幾小時(shí))中,所有用戶的歷史記錄特征都會(huì)從S3中提取,按用戶進(jìn)行轉(zhuǎn)換和聚合,然后被提取到離線存儲(chǔ)(Apache Hbase)中。這種“按用戶”的方式,能夠加快針對(duì)用戶的歷史查找。一旦系統(tǒng)檢測(cè)到用戶當(dāng)前處于活動(dòng)狀態(tài),“預(yù)熱(Warmup)”流程就被觸發(fā),該用戶的特征則會(huì)被加載到比離線存儲(chǔ)小得多的、只用來(lái)保存活動(dòng)用戶歷史記錄的在線存儲(chǔ)(Redis)中。該“預(yù)熱”過(guò)程通常需要幾秒鐘。最后,在線特征存儲(chǔ)中的特征,會(huì)使用來(lái)自用戶的每個(gè)事件(使用Apache Storm)作為“實(shí)時(shí)”流數(shù)據(jù),進(jìn)行持續(xù)更新。

與Feast架構(gòu)相比,Wix架構(gòu)的讀寫(xiě)速率較低。但是由于它只為在線存儲(chǔ)中的活躍用戶提供存儲(chǔ)特征,而非所有用戶,因此在具體化(materialization)和在線存儲(chǔ)方面非常高效。而且,活躍用戶在Wix中僅占所有注冊(cè)用戶的一小部分,因此也節(jié)省了不少空間。

不過(guò),雖然我們從在線存儲(chǔ)中檢索特征只需幾毫秒,但前提是在線存儲(chǔ)中已經(jīng)存在了這些特征。相反,由于預(yù)熱過(guò)程需要幾秒鐘,那么對(duì)于某些變得活躍的用戶而言,可能會(huì)由于加載相關(guān)特征的速度不夠快,根據(jù)競(jìng)態(tài)條件(race conditions),用戶會(huì)因評(píng)分過(guò)低而導(dǎo)致失敗。可見(jiàn),只要用例不是關(guān)鍵性的流程或任務(wù)(如:批準(zhǔn)交易或防范欺詐),就可以使用此類架構(gòu)。

3.商業(yè)化特征存儲(chǔ)--Tecton

除了批量數(shù)據(jù)源和流式數(shù)據(jù)源,商業(yè)化的企業(yè)特征存儲(chǔ)Tecton(https://www.tecton.ai/)架構(gòu)還支持“開(kāi)箱即用”的實(shí)時(shí)數(shù)據(jù)源(也稱為“實(shí)時(shí)特性”或“實(shí)時(shí)轉(zhuǎn)變”)。由于Tecton已經(jīng)能夠被特征存儲(chǔ)原生支持,因此它更易于實(shí)現(xiàn)。

與Feast和Wix的特征存儲(chǔ)一樣,Tecton也在注冊(cè)表中定義了各種特征,以便為離線和在線存儲(chǔ)進(jìn)行一次性的邏輯定義,以顯著減少訓(xùn)練服務(wù)的偏差,進(jìn)而確保ML模型在生產(chǎn)環(huán)境中的高精度。

來(lái)源:https://www.tecton.ai/blog/delivering-fast-ml-features-with-tecton-and-redis-enterprise-cloud/

下面我們來(lái)看看Tecton在離線存儲(chǔ)、在線存儲(chǔ)和基準(zhǔn)測(cè)試等方面的特點(diǎn):就離線特征存儲(chǔ)而言,Tecton支持S3。就在線存儲(chǔ)而言,Tecton為客戶提供DynamoDB和Redis Enterprise Cloud之間的選擇(https://www.tecton.ai/blog/delivering-fast-ml-features-with-tecton-and-redis-enterprise-cloud/)。而在最近的一次演示中,Tecton首席技術(shù)官Kevin Stumpf根據(jù)公司近期執(zhí)行的基準(zhǔn)測(cè)試,給出了有關(guān)如何選擇在線特征存儲(chǔ)的建議,請(qǐng)參見(jiàn)--https://youtu.be/osxzKxiznm4。除了對(duì)延遲和吞吐量進(jìn)行基準(zhǔn)測(cè)試,Tecton也對(duì)在線存儲(chǔ)的成本進(jìn)行了基準(zhǔn)測(cè)試。其原因在于,對(duì)于高吞吐量或低延遲的用例而言,在線存儲(chǔ)的成本可能占整個(gè)MLOps平臺(tái)總擁有成本的大部分,因此任何成本的節(jié)省都是非常有益的。

Tecton在對(duì)用戶的典型高吞吐量用例進(jìn)行基準(zhǔn)測(cè)試時(shí)發(fā)現(xiàn),與DynamoDB相比,Redis Enterprise的速度提高了3倍,同時(shí)成本降低了14倍。詳細(xì)的測(cè)試結(jié)果請(qǐng)參見(jiàn)--https://www.tecton.ai/blog/announcing-support-for-redis/。可見(jiàn),除非您只有一個(gè)用例,而且它既沒(méi)有高并發(fā)量,又沒(méi)有嚴(yán)格的延遲要求,那么就可以使用DynamoDB。

4.Lightricks使用商業(yè)化特征存儲(chǔ)——Qwak

Lightricks是一家專為視頻和圖像編輯開(kāi)發(fā)移動(dòng)應(yīng)用程序的獨(dú)角獸公司,F(xiàn)acetune就是其著名的自拍編輯APP。它也將特征存儲(chǔ)用到了其推薦系統(tǒng)上。

來(lái)源:https://www.youtube.com/watch?v=CG2vUCcvnD8&t=1915s

如上圖所示,Qwak的特征庫(kù)也支持開(kāi)箱即用的三種特征源——批處理、流式和實(shí)時(shí)特征。這與Tecton十分類似。不過(guò),在使用Qwak特征存儲(chǔ)時(shí),他們是從離線存儲(chǔ)(使用S3上的Parquet文件)和在線存儲(chǔ)(使用Redis)的原始數(shù)據(jù)源處,將特征具體化到了特征存儲(chǔ)中的。這與來(lái)自Wix、Feast或Tecton的特征存儲(chǔ)示例有所不同。此舉動(dòng)的好處在于,不僅單個(gè)特征的轉(zhuǎn)換邏輯,在訓(xùn)練和服務(wù)流之間是統(tǒng)一的(就像上面的Feast、Wix和Tecton的特征存儲(chǔ)一樣),而且實(shí)際的轉(zhuǎn)換或特征計(jì)算也是統(tǒng)一完成的,這樣就進(jìn)一步減少了訓(xùn)練-服務(wù)的偏差。也就是說(shuō),擁有源于原始數(shù)據(jù)的統(tǒng)一離線與在線,可以在生產(chǎn)環(huán)境中確保更高的準(zhǔn)確性。您可以通過(guò)鏈接--https://drive.google.com/file/d/1KfOMI9C-aitJNPdGB56L-6tA8BBp9gsl/view,了解Qwak的更多有關(guān)特征存儲(chǔ)架構(gòu)和組件的內(nèi)容。

5.小結(jié)

通過(guò)對(duì)上述四種用于實(shí)時(shí)AI/ML特征存儲(chǔ)的基準(zhǔn)和架構(gòu)的討論,我們可以看到,由于架構(gòu)、支持的特性類型和選擇的組件的不同,它們所產(chǎn)生的特性存儲(chǔ)的性能和成本會(huì)存在顯著的差異。同時(shí),我們也在文中比較了哪一種在線存儲(chǔ)的性能最高、最具成本效益,以及該使用哪一種機(jī)制或特征服務(wù)器,從在線存儲(chǔ)中提取特征。

原文鏈接:https://www.kdnuggets.com/2022/03/feature-stores-realtime-ai-machine-learning.html

譯者介紹

陳峻 (Julian Chen),51CTO社區(qū)編輯,具有十多年的IT項(xiàng)目實(shí)施經(jīng)驗(yàn),善于對(duì)內(nèi)外部資源與風(fēng)險(xiǎn)實(shí)施管控,專注傳播網(wǎng)絡(luò)與信息安全知識(shí)與經(jīng)驗(yàn);持續(xù)以博文、專題和譯文等形式,分享前沿技術(shù)與新知;經(jīng)常以線上、線下等方式,開(kāi)展信息安全類培訓(xùn)與授課。

責(zé)任編輯:武曉燕 來(lái)源: AI深一度
相關(guān)推薦

2023-09-12 10:07:30

ML人工智能

2023-06-30 16:28:24

人工智能ML

2025-02-12 10:33:44

2025-02-12 08:00:00

AI機(jī)器學(xué)習(xí)學(xué)習(xí)模型

2022-08-24 16:50:59

人工智能機(jī)器學(xué)習(xí)DevOps

2023-09-22 18:07:50

人工智能AIPython

2019-01-15 09:00:27

人工智能AIML

2022-04-23 10:55:51

存儲(chǔ)AI/ML對(duì)象鎖定

2023-03-30 07:40:03

FeatHub 項(xiàng)目特征工程開(kāi)發(fā)

2020-10-29 10:16:30

AIML網(wǎng)絡(luò)安全

2022-06-17 10:28:00

人工智能網(wǎng)絡(luò)安全機(jī)器學(xué)習(xí)

2020-08-11 07:00:00

人工智能

2023-11-13 15:31:23

2023-04-14 10:31:38

2022-08-18 09:42:02

人工智能機(jī)器學(xué)習(xí)

2020-01-16 09:00:00

AI人工智能ML

2023-03-27 08:05:27

數(shù)字化轉(zhuǎn)型MLOps

2023-12-06 15:40:17

AI

2024-12-26 08:34:32

2023-09-07 15:01:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人在线视频免费观看 | 亚洲欧美在线一区 | 91亚洲精华国产 | 亚洲一区二区在线视频 | 亚洲免费在线 | 中文字幕四虎 | 一区二区在线视频 | www国产成人免费观看视频,深夜成人网 | 日韩在线视频免费观看 | 成年人在线观看 | 日韩在线国产 | 国产福利二区 | 特级黄一级播放 | 国产成人综合av | 久久久精品网站 | 一区二区三区四区在线视频 | 亚洲日韩中文字幕一区 | 一区二区免费在线视频 | 欧美成年黄网站色视频 | 在线一区观看 | 国产免费拔擦拔擦8x高清 | 91就要激情 | 色婷婷亚洲一区二区三区 | 嫩草视频网站 | 天天草视频 | h视频免费在线观看 | 在线播放中文字幕 | 久久久久国产一区二区三区四区 | 国产欧美日韩一区二区三区 | 久久久成 | 国产一区二区三区在线 | 91天堂网 | 自拍偷拍第1页 | 亚洲码欧美码一区二区三区 | 欧美精品一区二区在线观看 | 欧美精品福利视频 | 久久精品国产一区二区电影 | 国产羞羞视频在线观看 | 国产日韩欧美中文 | 国产精品久久一区二区三区 | 在线免费观看a级片 |