成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為什么說Spark SQL遠遠超越了MPP SQL

大數(shù)據(jù) Spark
MPP SQL 是 Spark SQL 的一個子集,Spark SQL 成為了一種跨越領域的交互形態(tài),MPP SQL 是 Spark SQL 的一個子集。

 

[[168032]]

 前言

這里說的并不是性能,因為我沒嘗試對比過(下文會有簡單的說明),而是嘗試從某種更高一層次的的角度去看,為什么Spark SQL 是遠遠超越MPP SQL的。

Spark SQL 和 MPP SQL 其實不在一個維度上。簡而言之,

MPP SQL 是 Spark SQL 的一個子集

Spark SQL 成為了一種跨越領域的交互形態(tài)

MPP SQL 是 Spark SQL 的一個子集

MPP SQL 要解決的技術問題是海量數(shù)據(jù)的查詢問題。這里根據(jù)實際場景,你還可以加上一些修飾詞匯,譬如秒級,Ad-hoc 之類。

在實際業(yè)務中

探索類業(yè)務,比如KPI多維分析,用戶畫像查詢,數(shù)據(jù)科學家摸底數(shù)據(jù)等

運營類業(yè)務,比如報表(現(xiàn)在很多BI系統(tǒng)基本上完全基于SQL來構(gòu)建),各種運營臨時統(tǒng)計需求

分析類業(yè)務,不過這個會比較淺顯。顯然,真實的的分析應該主要依托一些統(tǒng)計類,機器學習等技術的支持

運維類業(yè)務,比如實時查詢查看海量的系統(tǒng)日志等

MPP SQL 是有一定的性能優(yōu)勢的,從HAWQ,Impala 等都是基于MPP架構(gòu)的。然而僅限于此。這些功能Spark SQL 目前都已經(jīng)涵蓋了,MPP SQL能做的事情,Spark SQL都完成的很漂亮。

依托于Spark 自身的全平臺性(漂亮的DataSource API以及各個廠商的努力適配),Spark SQL 基本上可以對接任意多個異構(gòu)數(shù)據(jù)源進行分析和查詢。

關于性能可以再多說兩句:

得益于一些具有復雜存儲格式的文件的誕生,譬如CarbonData, Spark SQL 已經(jīng)實現(xiàn)海量數(shù)據(jù)的秒級查詢

Spark 自身通過Tungsten等項目的優(yōu)化(尤其是代碼自動生成),速度越來越生猛,而JVM譬如GC帶來的問題則可以進一步通過off-heap的方式減少。

所以 Spark SQL 和 MPP SQL在性能上的差距也會越來越小。

Spark SQL 成為了一種跨越領域的交互形態(tài)

Spark 通過使用DS(2.0統(tǒng)一了DF 和 DS,使用一套SQL引擎)極大的增強了交互語意,意味著你可以用SQL(DS)作為統(tǒng)一的交互語言完成流式,批處理,交互式查詢,機器學習等大數(shù)據(jù)領域常見場景。這在任何一個系統(tǒng)都是不多見的,也可見Spark團隊的抽象能力。

引言中的那篇文章其實是作者吐槽Spark 團隊對Spark core(RDD)那層關注太少了,所以開始發(fā)牢騷。

現(xiàn)在我們再回過頭來看我們常見的一些業(yè)務:

實時分析類業(yè)務

探索類業(yè)務

分析預測類業(yè)務

運營報表類業(yè)務

首先這些業(yè)務都可以使用Spark 來實現(xiàn)。其次統(tǒng)一的交互接口都是DS(DF/SQL),并且DS/SQL 是一套極度易用并且廣泛普及和接受的。

當然Spark 也不是一步就做到這點的,原來流式計算和批量計算就是兩套API, DF 和 DS 也是兩套API,后面經(jīng)過發(fā)展,Databricks 團隊也在積極思考和慢慢成長,經(jīng)過先前已經(jīng)有的積累,才做到現(xiàn)在的這一步。

所以本質(zhì)上DS/SQL 已經(jīng)成為除了RDD API 以外,另外一套通用的,統(tǒng)一的交互式API,涵蓋了流式,批處理,交互式查詢,機器學習等大數(shù)據(jù)領域。這也是我們***次達成這樣的統(tǒng)一,目前來看也僅在Spark平臺上得以實現(xiàn),它是的大數(shù)據(jù)的使用和學習門檻進一步降低,功在千秋。

RDD VS DS/SQL

DS/SQL 是一套數(shù)據(jù)類型首先,操作種類受限的表達語言,意味著Spark 團隊可以做更好的性能優(yōu)化,也意味著門檻更低,在易用性和性能上都能取得良好的平衡。

責任編輯:趙立京 來源: 36大數(shù)據(jù)
相關推薦

2022-03-30 10:55:35

首席信息官CIOIT

2017-03-24 16:39:57

2021-05-31 15:48:36

網(wǎng)絡釣魚黑客網(wǎng)絡攻擊

2022-06-16 11:35:05

人工智能數(shù)據(jù)ML

2024-03-29 08:10:43

索引失效SQL

2021-11-26 10:48:06

MPPHadoop數(shù)據(jù)庫

2009-09-05 22:09:52

多核計算

2017-01-18 09:42:11

Go

2017-10-02 11:53:17

數(shù)據(jù)庫SQLNoSQL

2021-01-20 12:00:21

物聯(lián)網(wǎng)IoT大數(shù)據(jù)

2020-06-28 09:49:01

智能鎖智能家居物聯(lián)網(wǎng)

2010-05-11 11:11:12

2011-11-08 09:18:42

云計算開源OpenStack

2020-12-20 17:37:38

Java開發(fā)代碼

2017-04-19 11:17:48

SparkHadoopMapReduce

2016-12-14 19:20:07

Spark SQL架構(gòu)分布式

2022-11-15 08:35:00

SQLNOLOCK數(shù)據(jù)

2023-04-06 08:43:29

SQLWITH(NOLOCK

2016-12-14 19:04:16

Spark SQL優(yōu)化

2022-06-09 08:32:21

SQLNOLOCKWITH
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区中文字幕 | 亚洲成人久久久 | 一区二区三区中文字幕 | 国产一二三视频在线观看 | 一区二区三区日本 | 欧美激情综合色综合啪啪五月 | 国产精品久久久久久久一区二区 | 97精品超碰一区二区三区 | 欧美精品在线一区 | 亚洲国产片 | 亚洲欧美视频一区二区 | 欧美一区二区三区在线播放 | www.久久 | 久久91视频| 日本黄色一级视频 | 欧美做暖暖视频 | 亚洲欧美日韩国产综合 | 中文字幕一区二区三区四区 | 国产精品3区 | av黄色网 | 91亚洲一区| 久久久久国产成人精品亚洲午夜 | www.99re| a毛片视频网站 | 日韩不卡在线 | 久久九九99 | 久久一区二区三区电影 | 日韩中文字幕一区 | 日韩国产精品一区二区三区 | 岛国毛片在线观看 | 精品久久久久久中文字幕 | 91偷拍精品一区二区三区 | 一区日韩 | 国产一区二区三区四区三区四 | 一区二区中文字幕 | 91免费观看视频 | 午夜小电影 | 色婷婷综合久久久久中文一区二区 | 久久久久久成人 | 国产精品久久久久久中文字 | 日韩精品一区二区三区在线播放 |