圖形分析將讓大數據變得更大
社交網絡已經將互聯網變成了一張復雜的人際關系網。社交圖形分析為人們提供了一種解讀這些人際關系的方法。
由于能夠幫助人們識別個人在群體、人際關系和影響等環境中可能做出的行為,社交圖形模型已經成為人類行為精確預測模型的強大推動因素。通過聚集人類行為和互動活動,這些模型使得我們能夠近距離地仔細評估客戶體驗。
如果你僅對一些人感興趣,僅對將他們彼此相連的某一類關系展開研究,或是僅對他們相關行為數據的某個靜態池(static pool)進行數據挖掘,那么社交圖形分析將會讓這些任務變得簡單起來。另一方面,如果你正嘗試評估地球上每個人、每個地方和每件事情之間每個潛在關系的轉變模式,以及他們彼此之間可能說的話,并且想動態地、實時地精準預測他們在未來每個節點上可能要做的事情,那么你無疑正生活在一個科幻世界里。
如今人們已經開始逐漸意識到社交圖形分析所具備的潛力將擴展一些應用在公共、私人和研究領域內的應用范圍。目前,社交圖形分析正迅速發展為大數據市場中一個最具前景的新領域,成為了諸多商業和開源圖形數據庫的核心應用。在許多行業中,社交圖形分析已經讓反欺詐、影響力分析、情緒監控、市場細分、互動程度優化、用戶體驗優化等功能,以及需要快速識別復雜行為模式的應用變得更加強大。
為了獲得這些潛在優勢,社交圖形分析需要使用大量的大數據資源。最起碼,你要能夠像繪制節點和鏈接網絡那樣繪制出實體與人際關系的社交圖形模型,或是繪制出個人與相關聯系的社交圖形模型。此外,圖形分析人員還會使用“頂點”和“邊”等概念。目前我們已經聽說了一些大規模并行公共圖形分析基礎設施,這些基礎設施能夠處理由4.4萬億個節點(記錄)和70萬億條邊(這些記錄之間的關系)組成的圖形。目前Facebook自有的社交圖形分析基礎設施能夠處理數十億個節點和近萬億條邊。
仔細想一下:網絡級圖形分析創新方案已經投入大規模使用,例如存儲處理、內存、互聯、數據中心建設、能耗等,它幾乎能夠讓任何一個你能說出名字的大數據部署相形見絀。隨著圖形模型大小的迅速膨脹,數據來源范圍的不斷擴展,所處理的工作負載在數量、類型和并發次數上的不斷增長,對實時低延遲速度的需求提升至了一個新高度,擴展性需求無疑也在迅速增長。
圖形分析將推動大數據向更大規模和更復雜的程度發展。Hadoop只是這一發展過程中的一個分支,它們未必就是核心。隨著專門用于發現、關聯和預處理來自各種可能源的行為數據的NoSQL數據庫應用范圍日益廣泛,內存大規模并行圖形數據庫架構將會嶄露頭角。
如果你十分關注圖形分析,那么你需要提升應對大數據的三個V(即大量化、快速化和多樣化)的能力,以更為高效地處理它們。隨著組件成本的下降和量子計算架構取得進展,大量機構運行艾字節級(Exabyte)、零延遲、全內存全球圖形分析云將有可能成為現實。