驅動AWS QuickSight應對大數據挑戰的創新技術
眼下,我們生活在眾多網站、聯網設備和移動應用程序生成海量數據的時代。在這種數據密集型環境下,做出關鍵的業務決策勢必需要從這些數據獲得寶貴的洞察力,比如開展營銷和銷售活動、物流規劃、財務分析以及廣告定位等決策。然而,收集、存儲和處理數據的數據基礎設施主要面向廣大的開發人員和IT專業人士(比如Amazon Redshift、Amazon DynamoDB和Amazon EMR),不僅技術專業人士需要獲取洞察力,不懂技術的業務用戶也需要獲取洞察力。
為了能夠為客戶提供最出色的數據存儲方案,這些年來我們構建了幾種創新的數據庫解決方案,比如Amazon RDS、Amazon RDS for Aurora、Amazon DynamoDB和Amazon Redshift。許多客戶在使用這些解決方案收集和存儲海量數據,這點不足為奇。不過,從這種類繁多的數據源獲取可付諸行動的洞察力這個過程并非易事。傳統上,許多公司只好購買許多復雜的工具來發現數據集、購買抽取/轉換/加載(ETL)工具來準備分析,購買另外的工具來分析和提供可視化的交互式儀表板。
如今,我迫不及待地想與各位介紹一種全新的服務:Amazon QuickSight,旨在簡化從種類繁多的數據源獲取洞察力的過程,以便快速、輕松、低成本地獲取洞察力。QuickSight是一種非常快、云驅動的商業智能服務,成本卻只有傳統商業智能解決方案的十分之一。
大數據挑戰
近幾年來,AWS提供了一系列全面服務,幫助客戶收集、存儲和處理越來越多的數據量。如今,成千上萬家公司在使用亞馬遜網絡服務(AWS)來滿足其在大數據方面的要求:既有強生、三星和飛利浦這樣的大企業,也有網飛(Netflix)和Adobe這樣的老牌科技公司,還有Airbnb、Yelp和Foursquare這樣的創新初創公司。
每天都有大量的數據從在AWS基礎設施上運行的客戶應用軟件生成,使用Amazon Kinesis之類的服務來收集和流式傳輸,存儲在AWS關系數據源中(比如Amazon RDS、Amazon Aurora和Amazon Redshift)、NoSQL數據源(比如Amazon DynamoDB)以及基于文件的數據源(比如Amazon S3)。客戶還使用眾多不同的工具,包括Amazon EMR for Hadoop、Amazon Machine Learning、AWS Data Pipeline和AWS Lambda,處理及分析數據。
收集、存儲和處理的數據與業務用戶每天做出的關鍵決策之間存在固有的缺口。簡而言之,對企業組織的最終用戶而言,數據并不總是隨時可用、易于訪問。大多數業務用戶繼續在努力解答重要的業務問題,比如“我的主要客戶是哪些,他們在購買什么?”,“我開展的營銷活動效果怎樣?”,以及“為什么我盈利最多的區域沒出現業務增長?”雖然商業智能解決方案面市已有幾十年了,但是客戶告訴我們,彌補這個缺口需要投入大量的時間、IT人力和資金。
傳統的商業智能解決方案通常需要數據工程師組成的團隊花幾個月時間來構建復雜的數據模型,綜合數據,然后才能生成第一份報表。這種解決方案缺少交互式數據探查和可視化功能,大多數業務用戶只好使用現成報表和預先選擇的查詢。
內部部署型商業智能工具還要求公司配置和維護復雜的硬件基礎設施,并支付昂貴的軟件許可證、維護費和支持費,而支持費每年每個用戶可能高達數千美元。為了適應數量更多的用戶,并支持社交媒體、互聯網、移動、物聯網、廣告技術和電子商務等工作負載帶來的激增數據量,這些工具需要投資興建更多的基礎設施,以保持合理的查詢性能。實施和擴展商業智能解決方案成本高、難度大,這讓大多數公司很難在整個企業組織普遍使用商業智能。
Amazon QuickSight應運而生
QuickSight是一種從頭開始構建的云驅動的商業智能服務,旨在應對大數據在速度、復雜性和成本等方面的幾大挑戰。有了QuickSight,貴公司的業務用戶只要借助易于使用的用戶界面,就能做到分散在眾多不同大數據源(比如關系數據源、NoSQL數據源和流式數據集)的數據觸手可及,而成本只有傳統商業智能解決方案的十分之一。很容易從QuickSight開始入手。下面就介紹QuickSight的一些核心功能。QuickSight讓你很容易在短短幾分鐘內,完成安裝、連接至數據源,并構建可視化類型。
QuickSight凝聚了大量的創新技術,讓業務用戶可以迅速獲得第一洞察力。下面是驅動QuickSight的幾大創新技術。
SPICE:讓QuickSight功能如此強大的主要組件之一是超高速并行內存計算引擎(SPICE)。SPIC是一項從頭開始構建的新技術,由當初開發了DynamoDB、Amazon Redshift和Amazon Aurora等技術的同一個團隊開發。SPICE讓QuickSight能夠擴展至數TB分析數據的環境,對大多數可視化查詢而言提供了毫秒級的響應時間。如果你用QuickSigh處理某個數據源,數據會自動被吸納到SPICE中,以獲得最佳的分析查詢性能。SPICE結合使用了列存儲、借助最新硬件創新實現的內存技術、機器碼生成和數據壓縮,讓用戶得以對龐大數據集執行交互式查詢,并且迅速獲得響應。SPICE支持豐富的運算,從而幫助客戶在探查數據時獲取寶貴的洞察力,沒必要為配置和管理基礎設施而操心。SPICE可自動復制數據,確保高可用性和高性能。這樣一來,企業組織就能擴展至數千個用戶:他們都能針對一系列廣泛的AWS數據源,執行快速的交互式查詢。除了驅動QuickSight外,我們還讓AWS商業智能合作伙伴能夠與SPICE整合起來,那樣使用我們合作伙伴工具的客戶可以借助已經很熟悉的用戶界面,迅速直觀地顯示數據。
自動發現:商業智能和數據分析面臨的挑戰之一就是,發現數據,并篩選數據以便分析。這需要IT部門建立數據目錄,并且借助分析引擎和工具確保數據可以發現。用戶登錄進入到QuickSight后,它會自動發現客戶可以訪問的所有數據源,并分析它們,不需要數據庫配置和安裝等操作。比如說,客戶可以直觀地顯示其在Amazon Redshift集群上的數據,只要選一張表,然后進入到可視化顯示,最多只要點擊三下。為了做到這一點,我們構建了一項活動元數據目錄服務,它為客戶可以訪問的所有數據源(比如Amazon Redshift、RDS、S3、Amazon EMR和DynamoDB)編制了一份目錄。
AutoGraph:選擇合適的可視化類型并非易事,背后有許多學問和門道。比如說,最佳可視化取決于諸多因素:用戶選擇的數據字段類型(比如“是時間、號碼還是字符串”),數據基數(比如“該字段只有4個獨特的值還是有100萬個值?”),以及用戶試圖可視化的數據字段數量。雖然QuickSight支持多種圖形類型(比如條形圖、線形圖、散布圖、箱形圖和餅形圖等),但我們試圖簡化的其中一個方面是,使用一種名為AutoGraph的技術,自動為所選擇的數據選擇合適可視化的功能。有了該技術,用戶選擇好想要可視化顯示的哪些數據字段后,QuickSight就會為它們自動選擇合適的可視化類型。
建議:數據的絕對數量可能大得驚人;許多用戶只想探查其數據,了解值得關注的特點。比如說,針對Amazon Redshift集群中銷售數據的最常見查詢可能是,“一段時間后,涵蓋不同類別的總體銷售額會出現怎樣的增長?”借助QuickSight,我們開發了一種引擎,可以為有意義的分析提供建議,用戶選擇所要分析的數據源時可能對此有興趣。引擎通過分析數據源的元數據、最常訪問的查詢以及另外幾個參數來提供建議。我們認為,這為用戶無需做大量工作,獲取寶貴的洞察力提供了一種簡單方法。
協作和共享實時分析結果:用戶們常常想要對數據進行交叉分析,并以一種安全的方式共享分析結果。有了QuickSight,用戶就能構建一個“故事板”(storyboard)――故事板里面有多種分析,加以適當的注釋,然后與企業組織中的其他人共享。不像傳統工具,它們能夠共享實時分析結果,而不是只能共享靜態圖像,那樣接收方同樣能從共享的故事板中獲取洞察力。我們還為眾多企業提供了與活動目錄集成的功能,那樣客戶就能使用其現有的登錄信息(credential),共享洞察力。
我在本文中只著重介紹了QuickSight的幾個重大創新。想了解關于這款產品的詳細信息,請訪問AWS博客、 QuickSight詳情頁面和常見問題解答(FAQ)頁面。
評價
正如我在前面所述,亞馬遜和AWS 的許多創新(包括QuickSight)源自于客戶反饋。我們積極聽取客戶的痛點,處理基礎設施、數據管理和數據分析等各方面無差別的繁重任務。不斷聽取客戶反饋,迅速迭代產品功能,這個戰略已成為一個良性循環,對我們來說一直屢試不爽。QuickSight同樣從類似的根基起家;在發布的最終階段,我有幸聽自客戶的這類積極反饋。我們聽到納斯達克(Nasdaq)和Intuit等客戶給予了好評。
納斯達克讓其客戶能夠從容地規劃、優化和實現業務愿景,并使用久經考驗的技術,提供透明度和洞察力,馳騁于如今的全球資本市場。其技術驅動著50個國家的100多個市場、 清算機構和中央證券存管機構,所以生成了大量數據。納斯達克公司的首席架構師Nate Simmons告訴我們,他們始終對分析存儲在Amazon Redshift、Amazon S3及其他數據源中的數據的新工具饒有興趣。對他來說,數據量和使用日益增長的同時,擁有超高速性能對他的用戶來說至關重要。基于預覽QuickSight的情況,他們發現,SPICE內存運算引擎結合易于使用的用戶界面,很適合其使用場合。
同樣,Intuit公司的公有云主管Troy Otillio告訴我們,從初期預覽QuickSight的情況來看,他們認為這項服務會挑戰現狀。他提到,該產品對業務用戶來說界面直觀,對需要一種超高速性能、易于使用的工具的營銷人員來說更是如此。
【新聞來源:www.stratoscale.com|云頭條編譯(未經授權謝絕轉載)】