成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

利用Alluxio構(gòu)建計(jì)算-存儲(chǔ)解耦架構(gòu)

存儲(chǔ) 存儲(chǔ)軟件
計(jì)算-存儲(chǔ)緊耦架構(gòu)是一種在數(shù)據(jù)存儲(chǔ)的節(jié)點(diǎn)上進(jìn)行計(jì)算的架構(gòu),這種架構(gòu)解決了計(jì)算引擎的數(shù)據(jù)需求,但維持這種緊耦結(jié)合的架構(gòu)需要一定代價(jià),這往往超出了其帶來(lái)的性能提升。

 這篇博客探討了在數(shù)據(jù)平臺(tái)上使用Alluxio的幾點(diǎn)優(yōu)勢(shì),主要從如下方面介紹:

1 計(jì)算-存儲(chǔ)解耦架構(gòu)興起的趨勢(shì)

2 Alluxio如何加速計(jì)算-存儲(chǔ)解耦架構(gòu)中數(shù)據(jù)訪問(wèn)

3 通過(guò)運(yùn)行SparkSQL workload展現(xiàn)Alluxio的優(yōu)勢(shì)

動(dòng)機(jī)

計(jì)算-存儲(chǔ)緊耦架構(gòu)是一種在數(shù)據(jù)存儲(chǔ)的節(jié)點(diǎn)上進(jìn)行計(jì)算的架構(gòu),這種架構(gòu)解決了計(jì)算引擎的數(shù)據(jù)需求,但維持這種緊耦結(jié)合的架構(gòu)需要一定代價(jià),這往往超出了其帶來(lái)的性能提升。隨著云計(jì)算的興起,獨(dú)立擴(kuò)展計(jì)算和存儲(chǔ)的成本和維護(hù)代價(jià)更低。

另外,數(shù)據(jù)已經(jīng)成為一種新型的珍貴資源,所有現(xiàn)代組織都在試圖獲取盡可能多的數(shù)據(jù),而數(shù)據(jù)存儲(chǔ)階段往往早于發(fā)掘數(shù)據(jù)價(jià)值階段,所以存儲(chǔ)計(jì)算的緊耦合是不切實(shí)際的。計(jì)算-存儲(chǔ)范式的顛倒使很多數(shù)據(jù)平臺(tái)陷入困境,強(qiáng)迫他們?cè)谛阅埽杀竞挽`活性之間進(jìn)行權(quán)衡。Alluixo解決了這一兩難困境,它提供了一種計(jì)算存儲(chǔ)解耦架構(gòu),其性能與計(jì)算-存儲(chǔ)緊耦合架構(gòu)相同,并且更加靈活。

[[226316]]

Alluxio是如何發(fā)揮作用的

當(dāng)Alluxio在計(jì)算節(jié)點(diǎn)上或靠近計(jì)算節(jié)點(diǎn)的位置運(yùn)行時(shí),Alluxio通過(guò)提供靠近計(jì)算端的緩存來(lái)實(shí)現(xiàn)性能提升。應(yīng)用和計(jì)算框架通過(guò)Alluxio發(fā)送請(qǐng)求,Alluxio反過(guò)來(lái)會(huì)從遠(yuǎn)程存儲(chǔ)系統(tǒng)獲取數(shù)據(jù)。同時(shí),Alluxio拷貝一份數(shù)據(jù)緩存在Alluxio存儲(chǔ)空間中,這樣數(shù)據(jù)可以在Alluxio節(jié)點(diǎn)的內(nèi)存或持久化存儲(chǔ)介質(zhì)中可用。之后應(yīng)用將直接讀取緩存中的數(shù)據(jù)。這必然可以提升計(jì)算存儲(chǔ)解耦架構(gòu)的性能。然而,Alluxio只處理工作集數(shù)據(jù),不保存持久化數(shù)據(jù)。因此,Alluxio不需要超大容量存儲(chǔ),可以在一定大小的存儲(chǔ)空間發(fā)揮作用,而不必考慮數(shù)據(jù)總量。Alluxio還利用多級(jí)緩存和數(shù)據(jù)管理技術(shù)以高效地管理存儲(chǔ)空間。

 Alluxio位于計(jì)算層和存儲(chǔ)層之間,提供數(shù)據(jù)訪問(wèn)和整合的統(tǒng)一入口。這意味著應(yīng)用可以自由使用任意Alluxio支持的統(tǒng)一接口,例如S3接口或者Hadoop兼容的接口。另外,數(shù)據(jù)可以自動(dòng)在存儲(chǔ)系統(tǒng)和應(yīng)用端進(jìn)行交互,而不管底層存儲(chǔ)系統(tǒng)原本支持的接口。這種概念擴(kuò)展的不僅僅是API的翻譯,底層存儲(chǔ)系統(tǒng)的安全性和一致性等功能也進(jìn)行了抽象并通過(guò)Alluxio提供。

在S3和Alluxio之上運(yùn)行SparkSQL

為了示例說(shuō)明Alluxio為計(jì)算-存儲(chǔ)解耦架構(gòu)帶來(lái)的性能提升,我們?cè)赟parkSQL上運(yùn)行TPC-DS 2.4,數(shù)據(jù)存放在S3中。TPC-DS 是一個(gè)實(shí)際的工業(yè)測(cè)試基準(zhǔn),專門為大數(shù)據(jù)分析查詢所定制。99個(gè)查詢集合順序執(zhí)行,這意味著開始的查詢讀取S3中的冷數(shù)據(jù),之后將從Alluxio存儲(chǔ)系統(tǒng)中查詢緩存數(shù)據(jù)。實(shí)驗(yàn)在AWS上進(jìn)行,應(yīng)用開源版本的Alluxio 1.7.0和Apache Spark 2.2。集群擁有4 個(gè)r4.4xlarge worker節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)上同時(shí)運(yùn)行Alluxio worker和Spark worker,灰色的S3數(shù)據(jù)代表了TPC-DS查詢存儲(chǔ)在S3中的Parquet數(shù)據(jù)的實(shí)驗(yàn)性能結(jié)果,Alluxio完全不參與數(shù)據(jù)讀寫。藍(lán)色的Alluxio數(shù)據(jù)代表了使用Alluxio后的實(shí)驗(yàn)性能結(jié)果,但Alluxio在實(shí)驗(yàn)開始時(shí)沒(méi)有存儲(chǔ)數(shù)據(jù)。隨著查詢進(jìn)行,Alluxio將對(duì)數(shù)據(jù)進(jìn)行緩存,同時(shí)基于數(shù)據(jù)熱度自動(dòng)管理其存儲(chǔ)空間。比如,對(duì)于經(jīng)常訪問(wèn)的文件,Alluxio為了提升讀數(shù)據(jù)的吞吐量,將拷貝多份數(shù)據(jù),下表展示了測(cè)試中不同類型的查詢性能結(jié)果,以及應(yīng)用Alluxio對(duì)查詢性能產(chǎn)生的影響。

***個(gè)查詢集合是初始查詢,即直接從S3中讀取冷數(shù)據(jù)。因?yàn)锳lluxio必須從S3中預(yù)先讀取數(shù)據(jù),所以兩種查詢方式的效果幾乎相同。從Alluxio1.7.0版本開始,Alluxio worker會(huì)通過(guò)客戶端數(shù)據(jù)訪問(wèn)方式智能地異步讀取塊數(shù)據(jù),所以初始讀取數(shù)據(jù)階段不會(huì)造成較大影響,甚至?xí)嵘樵冃省?/p>

在***情況下,即大多數(shù)數(shù)據(jù)集都存儲(chǔ)在Alluxio中,并且查詢是I/O密集型,Alluxio可以加速查詢速度10倍左右。針對(duì)絕大多數(shù)查詢類型,使用Alluxio后性能都有所提升,例如寬掃描查詢。不使用Alluxio查詢的I/O速度是網(wǎng)絡(luò)通信級(jí)別的,而使用Alluxio后,在S3上進(jìn)行的I/O查詢速率可以接近本地內(nèi)存級(jí)別。在評(píng)估查詢性能時(shí),查詢?cè)绞艿絀/O瓶頸限制,則引入Alluxio后提升的吞吐量越多。因?yàn)槭褂昧薙3和AWS存儲(chǔ),網(wǎng)絡(luò)狀態(tài)是理想的,實(shí)驗(yàn)可以充分利用10千兆飽和網(wǎng)絡(luò)連接。在網(wǎng)絡(luò)帶寬或磁盤I/O帶寬更低,數(shù)據(jù)傳輸受限更多的情況,Alluxio會(huì)帶來(lái)更大的性能提升。

相反,對(duì)于極度的計(jì)算密集型或shuffer密集型查詢,例如帶有復(fù)雜謂詞的join查詢請(qǐng)求,Alluxio性能提升較少。對(duì)于計(jì)算和I/O都成為部分瓶頸的查詢,Alluxio加速I/O受限的部分,提升的性能在總體實(shí)驗(yàn)結(jié)果中居中。在實(shí)驗(yàn)中,沒(méi)有查詢?cè)谑褂肁lluxio后性能下降。

 比較運(yùn)行總耗時(shí),盡管Alluxio初始沒(méi)有加載數(shù)據(jù),Alluxio還是比直接從S3讀取數(shù)據(jù)快40%。隨著查詢?nèi)蝿?wù)的進(jìn)行,Alluxio根據(jù)數(shù)據(jù)訪問(wèn)模式和頻率逐漸緩存數(shù)據(jù)。然而,總運(yùn)行耗時(shí)并不能全面描述實(shí)際情況,因?yàn)殚L(zhǎng)耗時(shí)查詢會(huì)占很大比重。通過(guò)賦予每個(gè)查詢相同的比重,Alluxio可以提高查詢的幾何平均數(shù)接近兩倍!這些結(jié)果反映了Alluxio可以提高所有TPC-DS基準(zhǔn)測(cè)評(píng)中的查詢性能,對(duì)于某些查詢性能甚至能夠提高一個(gè)數(shù)量級(jí)。而且,將Alluxio引入整個(gè)技術(shù)棧不會(huì)對(duì)任何查詢性能產(chǎn)生負(fù)面影響。

結(jié)論

TPC-DS代表了一類采用Alluxio實(shí)現(xiàn)計(jì)算-存儲(chǔ)解耦架構(gòu)而提升性能的工作負(fù)載。通過(guò)使用Alluxio,需要不同API的應(yīng)用可以無(wú)縫地從解耦開的、并且之前不兼容的存儲(chǔ)系統(tǒng)中訪問(wèn)傳輸數(shù)據(jù),而且這種數(shù)據(jù)訪問(wèn)無(wú)需處理性能損失方面的問(wèn)題。

責(zé)任編輯:武曉燕 來(lái)源: Alluxio
相關(guān)推薦

2020-11-20 15:22:32

架構(gòu)運(yùn)維技術(shù)

2018-05-08 10:46:31

Hadoop大數(shù)據(jù)存儲(chǔ)

2017-12-26 15:52:31

MQ互聯(lián)網(wǎng)耦合

2017-11-15 09:32:27

解耦戰(zhàn)術(shù)架構(gòu)

2012-07-10 01:47:14

代碼架構(gòu)設(shè)計(jì)

2022-09-02 08:23:12

軟件開發(fā)解耦架構(gòu)

2018-01-01 06:41:44

耦合互聯(lián)網(wǎng)架構(gòu)配置中心

2013-09-16 10:19:08

htmlcssJavaScript

2016-11-30 15:30:42

架構(gòu)工具和方案

2012-03-19 10:43:39

ibmdw

2021-03-10 05:50:06

IOCReact解耦組件

2025-05-20 07:13:22

Spring異步解耦Event

2024-03-08 16:27:22

領(lǐng)域事件DDD項(xiàng)目跨層解耦

2022-04-15 11:46:09

輕量系統(tǒng)解耦鴻蒙操作系統(tǒng)

2024-07-01 14:48:52

2021-08-27 08:44:52

MQ架構(gòu)耦合

2025-06-20 08:40:32

2012-07-04 13:27:48

云計(jì)算存儲(chǔ)虛擬化

2022-12-28 07:45:17

2022-06-07 07:58:16

流程解耦封裝
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91污在线 | 日本高清在线一区 | 亚洲精品一区二区三区在线 | 日本在线一区二区三区 | 天天拍天天操 | 久久久久免费 | 中文字幕在线一区 | 精品96久久久久久中文字幕无 | 一区二区国产精品 | 97视频成人| 亚洲vs天堂 | 精品1区2区 | 99福利 | www.天天操.com| a中文在线视频 | 国产蜜臀97一区二区三区 | 99久久精品国产一区二区三区 | 亚洲女人天堂成人av在线 | 羞羞在线观看视频 | 久久99久久 | 91精品国产91 | 成人精品一区二区 | 亚洲国产精品久久久 | 久久com | 91精品久久久久久久久中文字幕 | 中日字幕大片在线播放 | 999精彩视频 | 久久婷婷国产麻豆91 | 自拍偷拍视频网 | 亚洲精品日日夜夜 | 99精品视频在线 | 一区二区三区免费观看 | 三级欧美 | 国产精品成人一区二区三区夜夜夜 | 免费精品视频 | 欧美电影大全 | 一级毛片在线播放 | 欧美a区 | 99久久久无码国产精品 | 羞羞的视频在线看 | 天堂中文在线观看 |