Alluxio發布新版本V1.8,加速數據分析和機器學習的云端部署
云端逐漸成為大數據企業的必爭之地。根據美國媒體報道,7月31日消息,分布式虛擬存儲系統Alluxio發布1.8版本,加速針對數據分析及機器學習的云端部署。
Alluxio是世界上***能以內存級速度集成數據的軟件系統,其技術脫胎于其創始人李浩源博士在加州伯克利AMPLab的博士課題開源研究項目Tachyon——它能夠在大數據應用層及存儲層之間搭建一個虛擬數據層,讓企業能夠利用這個系統來使用和管理不同的數據應用及存儲方案。此前,全球知名的現象級開源軟件Spark及Mesos同樣出自AMPLab,只是不同于針對存儲的Alluxio,前者專注于計算,后者則專注于資源管理和調度。
由于擁有內存級的訪問速度,Alluxio系統比過去的方案快了十倍甚至數十倍。
創建五年后,Alluxio是最活躍的數據生態系統開源項目之一,解決數據問題的能力備受信任。在中國市值排名前十的互聯網公司中,已經有八家在應用Alluxio的技術方案,管理PB級別的數據。除此之外,華為、聯想、中國電信、京東等公司也都在用它來管理數據,其他合作伙伴包括英特爾、三星、微軟、Nvidia、Oracle等等。
Alluxio經歷了數次版本更替。通過此次更新,這個系統希望能進一步支持不同的云端存儲方案,加速數據儲存、調取和使用的速度,解決深度學習面臨的數據存儲問題;與此同時,給他們非常重視的開源社區提供更多的支持和幫助。
針對云端部署,Alluxio的新版本提供了三個全新的功能:
1. 感知定位的數據管理工具。企業可以為數據應用設置不同的策略,根據數據的位置標記來選定具體的數據調用區域或者優化數據分布,從而降低調用不同存儲位置的數據時的成本、提高效率。
2. 針對不同云端存儲方案的優化。解決對象存儲或者云端存儲方案和傳統的HDFS(Hadoop Distributed File System)方案中的API及執行效率的差別帶來的問題;也讓把數據從HDFS轉移到對象存儲時更加容易,真正做到在云端輕便地轉移數據。
3. FUSE(Filesystem in Userspace)界面。FUSE能把云上的數據緩存在本地,通過普通的本地文件夾展現,以無縫支持現有的機器學習和大數據分析框架來存取云端數據。
云端趨勢下,混合云部署的強大需求
此次Alluxio版本更新,可以說是順應了企業“往云上走”的趨勢。
近幾年,不僅有層出不窮的云端數據存儲、計算和分析創業項目提供服務,大公司也在尋求更好的云端部署方案。
2018年6月,微軟收購知名開源開發平臺GitHub后,并表示將進行GitHub與自己的云服務產品Azure Cloud的整合。分析報告預測,未來云服務市場將從今年的281億美元增長到2021年的533億美元。
“數據分析和機器學習的興起讓云端的計算量大量增長,Alluxio的特性意味著它同樣可以很好地管理混合云的數據。”李浩源對鈦媒體說道。451Research的報告顯示,預計在2019年,超過66%的企業會使用一個混合云或者多個云服務方案的架構,它們都可能面對不同云服務上迥異的操作差異,單憑自己很難保證效率,需要第三方服務方案的協助。
更遠的未來里,中小型企業可能會徹底轉向公有云部署。
Gartner預測,到2021年,全球超過50%的企業會應用純粹的公有云存儲方案,而更大的公司則會應用更多的第三方云端基礎架構來管理混合云。
這和李浩源的判斷相符。他認為,對于很多現代企業來說真正的價值往往在數據里。
尤其是對于某些大型企業來說,最核心的數據管理很難假手于人。2017年馬云接受Bloomberg專訪時曾說出金句,“數據的重要程度堪比上個世紀的石油。”
Eric Anderson(時任Google產品經理)談Alluxio
“總有一些數據他們希望保存在本地服務器上,但全部放在本地成本又太高,所以選折中方案,在一個無縫的架構下管理私有和公有云是一個剛需。”李浩源說道。
除此之外,Alluxio也希望能解決近幾年火熱的數據分析及深度學習面臨的數據存儲問題。
對于數據分析來說,已經有了不少使用云上數據的方案,Alluxio只是能幫助提高性能、降低費用。
對于深度學習,問題則稍顯復雜。
“不是所有的訓練數據都能直接用于像Tensorflow這種深度學習框架,另外各類分布式存儲和云存儲的交互方式和傳統本地交互方式有很大區別,用戶難以準確地配置和使用新工具。”舉個例子,沒有Alluxio時,讓深度學習框架TensorFlow訪問微軟云服務Azure Object store上的數據就是一件難以完成的事情。
Alluxio的特性意味著它能整合各類存儲系統,縮短各類深度學習框架與存儲層之間的距離,提高效率及彈性、降低成本。另一方面,這次更新里的FUSE工具則讓Alluxio可以掛載本地文件系統,讓用戶在使用遠程云端分布式存儲時,擁有和本地數據時相似的交互體驗。
關注開源社區
除了針對云端部署及深度學習的更新之外,Alluxio的新版本還有另一個重點:為開發者提供了更多便利,包括:
1. 提供針對應用運行的數據服務監視工具,包括能夠獲取集群實時數據的web圖形界面以及命令行界面(Command Line Interface)工具,讓開發者能夠更好地了解數據的使用情況、分析性能結果并獲得數據洞察。
2. 更完善的生態系統集成。把對數據服務的追蹤和洞察擴展到不同的應用層和存儲層,開發者可以通過新的工具直觀地看到存儲系統中的問題,比如延時的直方圖和存儲空間利用率。
3. 一個入門套件(Starter Kit),其中包括預建的代碼及其他文件和一些簡單的案例展示,包括“如何在本地機器上安裝Alluxio”“如何安裝和設置AWS S3 Bucket(存儲桶)及加速遠程讀取”,讓開發者能更快地上手并使用Alluxio。
“開源社區是我們最珍視的事情之一,所以希望盡可能地幫助開發者理解和使用這個系統。”李浩源說道。他認為,自創立之初,這一社區帶來的活力是推動Alluxio迅速進展的重要推力之一。
在2016年接受CSDN采訪時,Alluxio曾表示“Alluxio是史上成長速度最快的開源社區之一”,如今其貢獻者已經超過800人,在GitHub上星標超過3000個。
正在比賽氣泡足球的部分Alluxio團隊成員
這個項目里還有不少活躍的公司貢獻者,他們還能提供針對具體產品和應用場景的反饋。英特爾、騰訊、阿里巴巴、百度、京東、陌陌等公司同樣也是這個開源項目的貢獻者之一 。比如陌陌的工程師團隊會基于陌陌的應用場景,做出適配和調整,而后經過Alluxio的社區管理者審核后接納,“最終形成一個正向的反饋,是一個雙向改進的過程”。
百度、去哪兒和陌陌都曾經就應用Alluxio之后的經驗做出分享,比如百度此前分享過,在用他們自己開發的使用Spark SQL作為計算引擎的查詢系統時,單獨一次查詢需要100-150秒;加上作為內存中心的存儲層的Alluxio之后,數據可能會沖擊本地或遠程Alluxio節點,需要10-15秒;當所有數據儲存在Alluxio本地時,平均只需5秒,速度提升了30倍。測試過后,百度圍繞 Alluxio和Spark SQL建立了一個完整的系統。
2016年初,Alluxio曾獲得硅谷知名風險投資機構 Andressen Horowitz的750萬美元融資。