下一代 Hadoop 技術演進路線展望
譯文Hadoop峰會即將到來,行業最杰出的精英人才將在這里探討Hadoop與大數據的未來。
云集全球各大技術勢力的圣何塞Hadoop峰會召開在即,而其中的一大熱點議題在于解答Hadoop的未來發展方向。Hortonworks公司創始人兼架構師Sanjay Radia將主持13項與該議題相關的討論。面對這些討論將如何展開這一問題,Sanjay回應稱:
“Hadoop仍然在以極高速度推動創新,而下一代Hadoop目前正在構建當中。這條發展道路承載著一系列Hadoop核心創新以及相關技術。與會者將了解到多個關鍵性項目——包括HDFS與YARN——的發展進程,外加以Hadoop平臺為中心的各類孵化器項目與行業倡議。與會者們將與多位技術領導者、貢獻者以及專業用戶交流Hadoop生態系統中即將出現的各發展路線圖、關鍵性功能以及先進技術研究成果。”
我同時問到,如果時間有限而必須從中選擇3次討論活動參加,那么該如何做出選擇。他給出的建議是:
Apache Hive 2.0 SQL速度提升
主講人: Alan Gates,來自Hortonworks 公司
Apache Hive可謂Hadoop領域最為常用的SQL接口,而其最為活躍的舞臺則為數據倉庫應用。為了滿足客戶的倉儲需求,我們有必要將其規模擴展至PB級別,提供用戶所需要的SQL,同時立足于交互時間執行任務。Hive社區正在努力構建Hive 2.0版本,其中包含一系列重要的新功能與性能改進。具體包括:
- 添加LLAP,用于實現亞秒級響應時間的守護程序層。
- 添加HBase作為Hive元數據存儲選項,從而加快元數據訪問速度并降低查詢規劃時間。
- 改進Hive從調整輸入內容中獲取數據的能力,包括Apache Flume與Apache Storm。
- 添加SQL MERGE命令,旨在改進并擴展Hive通過事務一致方式管理變更數據的能力。
- 通過部署Apache Calcite幫助Hive獲得多存儲引擎(例如HBase)的使用能力。這一對話活動將涵蓋相關用例、功能構建中的架構調整,同時分享可供參考的Hive實際提速效果。
多彩的YARN:應用與一流服務支持
主講人: Vinod Kumar Vavilapalli,來自Hortonworks 公司
Apache Hadoop YARN是一套現代資源管理平臺,能夠面向批處理(MapReduce)、交互(Hive、Tez、Spark)以及實時處理(Storm)等工作負載管理多套數據處理引擎。這些應用可全部同時存在于YARN當中并共享單一數據中心,從而以低成本方式解決資源管理、隔離及多租戶等實際問題。在本次演講中,我們將探討YARN社區作為下一步發展方向的新型用例組合——服務。YARN作為一項技術方案,一直都在堅實支持著各類應用與服務。即使這樣,將對現有及新型服務的支持引入YARN還是開創了新的前進思路。為了讓這些服務得到有效簡化及出色的效果,我們將交流Apache Hadoop YARN如何針對各類平臺進行調整以支持相關服務并實現開箱即用。企業客戶希望盡可能降低對基礎設施的關注,而更多著眼于端到端用戶實例。有鑒于此,我們還將探討API、工具集以及多彩的YARN如何為開發者業界帶來強大助力。
將HDFS演進至一套通用型分布式存儲子系統
主講人: Sanjay Radia與Jitendra Pandey,來自Hortonworks公司
我們正在將HDFS演進為一套分布式存儲系統,其不僅能夠支持分布式文件系統,同時亦支持其它存儲服務。我們計劃將Datanodes的容錯塊存儲層升級為一套通用型子系統,并以此為基礎構建包括HDFS以及對象存儲在內的其它存儲服務。我們還引入了存儲容器抽象,通過對其進行復制實現可靠性保障。最初的兩種容器類型為塊容器與對象容器。塊容器屬于經過復制的HDFS塊集合,其能夠在較低塊報告負荷的前提下實現可擴展性,同時允許相關文件實現同地協作。對象容器則一般包含大量小型對象,主要針對對象存儲服務(例如S3)。我們還計劃利用LSM-tress等結構化存儲容器為HBase提供出色支持。我們的方案擁有多種優勢,其使得Datanode的物理存儲能夠在不同存儲服務之間進行共享,且不會產生碎片化后果。存儲容器還能夠隔離各實現方案與客戶端協議,從而確保各容器類型獨立演進。未來,我們還將在容器方案中引入復制、位置服務以及清退等容器與存儲全局管理功能。
原文標題:The Future of Apache Hadoop