成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

星星之火漸呈燎原之勢:Spark 2.0預覽版重磅來襲

譯文
開發 大數據 Spark
Apache Spark 2.0即將正式與廣大用戶見面。雖然目前其預覽版只向Databricks云產品訂閱用戶開放,但考慮到Spark峰會即將于下個月召開,預計Apache Spark 2.0的全面降臨也將為時不遠。在1.x系列時代,Apache Spark的發展速度相當快,傾向于通過小版本更新推出各類新功能。而在首次大版本升級當中,我們相信Spark 2.0將帶來真正具有突破性的變化與更加關鍵的新功能設計。

【51CTO.com快譯】目前Databricks訂閱用戶已經能夠獲取Spark 2.0的技術預覽版。性能提升、SparkSessions以及數據流處理能力將成為新版本的主要發展方向。

[[166984]]

Apache Spark 2.0即將正式與廣大用戶見面。雖然目前其預覽版只向Databricks云產品訂閱用戶開放,但考慮到Spark峰會即將于下個月召開,預計Apache Spark 2.0的全面降臨也將為時不遠。在1.x系列時代,Apache Spark的發展速度相當快,傾向于通過小版本更新推出各類新功能。而在***大版本升級當中,我們相信Spark 2.0將帶來真正具有突破性的變化與更加關鍵的新功能設計。

統一DataFrames與Datasets

這里要向大家強調新版本的一大變革:在Spark 1.6中,DataFrames與Datasets相互獨立,但在2.0版本中DataFrames將成為Row類Dataset。

這一調整對于大多數用戶可能并不重要,但作為類結構的重要變化,大家現在可以在Java及Scala應用當中將DataFrames作為compile-time類加以使用,并在DataFrames與Datasets中同時使用類方法(map,filter)與非類方法(select,groupBy)。

經過改進的全新SparkSession

在使用Spark時,我們往往會遇到這樣一個問題:“我們已經有了SparkContext,SOLContext與HiveContext,那么什么情況下應該使用哪一種?”Spark 2.0引入了新的SparkSession對象,旨在減少這種困擾并提供一致性入口點。以下為SparkSession示例:

 

val sparkSession = SparkSession.builder

.master("local")

.appName("my-spark-app")

.config("spark.some.config.option", "config-value")

.getOrCreate()

 

如果大家使用REPL,那么設置Spark的過程中會自動生成SparkSession。希望讀取DataFrame中的數據?方式如下:

spark.read. json ("JSON URL")

另外一大標志性調整,就是不再強調使用Spark彈性分布式數據集(簡稱RDD)的初始抽象,而是在底層SparkContext利用spark.sparkContext創建RDD。請注意,RDD仍然存在,只是***DataFrame模式的作法更為普遍。

對于已經全面采用SparkSOL并發現這款查詢引擎有時候難以運用的朋友,Spark 2.0也帶來了新的解決辦法。新版本提供另一款SQL解析引擎,其能夠支持子查詢及大量SQL 2003功能(但并未宣布支持全部功能),這應該能讓傳統SQL應用更好地被移植到Spark當中。

Structured Streaming

Structured Streaming可能是此次發布的最令人激動的新功能。總體來講,Apache Spark 2.0帶來了新的流數據處理模式,由以往的RDD批處理機制轉向無邊界DataFrame概念。

這將使得某些場景下的數據流收集與更新更易于實現——同時允許時間列窗口存在于DataFrame本身而非立足于事件發生之時。作為令Spark Streaming長久以來遜于Apache Flink與Apache Beam的軟肋所在,此次調整應該能讓更多朋友樂于升級至2.0版本。

性能提升

Spark 2.0版本在運行速度與智能化水平方面下了一番功夫。Tungsten引擎已經采用源自編譯器的字節碼優化機制,旨在減少函數調用并保持處理過程中的CPU占用率。

Parquet支持能力也得到改進,某些用例下運行速度達到過去的十倍。另外,初次出現于Spark 1.6中且面向Java或Kryo的Encoder也得到系列化,得以繼續在集群中降低內存使用量并提升數據吞吐能力。

ML/GraphX

如果大家關注Spark在機器學習與圖形方面的改進,那么恐怕會有些失望。目前機器學習方面的spark.mllib庫開發工作已經中止,大家需要轉而在spar.ml中使用基于DataFrame的API。

Spark 2.0繼續面向所有支持語言實現模型與機器學習流程,同時進一步為不熟悉Java或者 Scala的數據科學家提供面向Python及R語言的MLLib API。

在GraphX方面,Spark 2.0對其似乎不太重視。這里我建議大家關注GraphFrames。目前其屬于主發行版之外的獨立版本,以DataFrames為基礎構建圖形處理框架,且能夠支持Java、Scala、Python與R語言。相信其將在Spark 3.0時代被納入主版本當中。

一代新人換舊人

新版本除了引入新特性之外,也移除了部分可能造成問題的舊元素:

  • 不再支持Hadoop 2.2及更早版本
  • 移除Bagel圖形庫(即GraphX的前身)

另外需要注意的是,大家應當逐步放棄當前在SparkSQL中人氣極高的registerTempTable,轉而使用createTempView,其輸出特點就是強調用戶不再利用API調用使用數據。另外,預計新版本中還將有部分日志通知機制被棄用。

是否需要盡快升級?

必須承認,考慮到可觀的性能提升與期待已久的Spark Streaming新功能,在未來幾周內盡快升級到Apache Spark 2.0通用版本確實很有吸引力。

不過我之前遇到過匆忙升級而導致的麻煩,因此我個人打算等段時間,看看嘗試在測試集群上運行新版本的朋友們是否會發現某些bug。

無論如何,Apache Spark 2.0帶來了眾多值得期待的元素,因此在確定一切安全后,升級無疑勢在必行!

原文鏈接:Spark 2.0 prepares to catch fire

【51CTO.com獨家譯稿,合作站點轉載請注明來源】

責任編輯:Ophira 來源: 51CTO.com
相關推薦

2014-07-02 13:55:17

Spark

2014-01-16 16:01:45

2013-07-11 16:21:52

PHP

2009-02-17 17:46:56

虛擬化Gartner服務器虛擬化

2013-11-05 10:23:00

行業移動醫療英特爾

2018-04-12 17:32:18

紅旗軟件Linux人才培養

2022-04-25 12:55:55

低代碼無代碼開發

2024-07-18 14:19:59

2023-01-05 08:52:42

OKR項目管理

2020-06-11 10:38:53

5G網絡技術

2015-04-27 14:00:24

OpenStack開源云平臺

2021-01-20 10:34:04

5G5G網絡5G終端

2009-05-06 17:37:17

MoonlightSilverlightRIA

2019-04-08 14:48:28

馬化騰互聯網下沉

2021-01-12 22:35:34

邊緣計算云計算開源

2010-11-29 12:59:23

2019-01-11 14:32:09

TensorFlow 機器之心谷歌

2020-09-11 14:31:04

華為HDC
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄久久久| a级在线免费视频 | 日本天天色 | 亚洲国产精品一区在线观看 | 日韩精品成人在线 | www.99热 | 91香蕉视频在线观看 | 欧美福利视频一区 | 91在线精品视频 | 国产伦精品一区二区三区视频金莲 | 日韩国产精品一区二区三区 | 精品亚洲视频在线 | 国产第一亚洲 | 国产成人精品一区二区三区在线 | 欧美国产日韩精品 | 一区二区国产精品 | 国产精品欧美一区二区三区 | 久久国内精品 | 欧美成人免费在线 | 欧美精品在线一区 | 欧美福利一区 | 色888www视频在线观看 | 91精品国产乱码久久蜜臀 | 91极品视频 | 日韩一级| 日韩不卡视频在线观看 | 天天色天天射天天干 | 狠狠的操 | 91精品国产91久久久久青草 | 欧美亚洲国语精品一区二区 | 午夜网站视频 | av片免费 | 国产99小视频 | 欧美国产日韩一区 | 欧美日韩手机在线观看 | a免费视频| 亚洲精品久久国产高清情趣图文 | 精品久久久久久久久久久久久久 | 欧美日韩在线观看一区二区三区 | 欧美一区二区三区在线观看 | 在线视频一区二区 |