大數(shù)據(jù)探討:如何整理1700億條Twitter發(fā)布信息?
譯文【51CTO外電頭條】隨著社交網(wǎng)絡(luò)蒸蒸日上,美國國會圖書館不得不面對達到133TB之巨的Twitter發(fā)布信息文件;好在經(jīng)過實踐,他們已經(jīng)找到了管理此類數(shù)據(jù)的辦法。
截至目前,美國國會圖書館所保存的Twitter信息數(shù)量已達到1700億條、存儲文件體積更到達133TB--由于每一條信息都已經(jīng)在這套社交網(wǎng)絡(luò)中分享及轉(zhuǎn)載,圖書館的技術(shù)團隊需要想辦法為用戶拿出切實可行的檢索方案。
在現(xiàn)階段的項目報告中,圖書館管理人員指出目前市場上提供的此類大數(shù)據(jù)管理工具無法解決他們的實際困難。"很顯然,現(xiàn)有技術(shù)還只能滿足獎學(xué)金信息等規(guī)模化數(shù)據(jù)集的訪問需求,而在創(chuàng)建及發(fā)布此類數(shù)據(jù)方面則表現(xiàn)乏力,"館方表示。"由于此類任務(wù)的復(fù)雜性及對資源的極高要求,私營部門尚無法拿出具備合理性價比的商業(yè)方案。"
如果私營企業(yè)都難以搞定大數(shù)據(jù)管理工作,那么預(yù)算拮據(jù)、全靠政府資金支持的非營利性機構(gòu)--包括全球***的圖書館在內(nèi)--又該如何解決這一難題?要拿出一套實用、經(jīng)濟、便捷且有能力處理1700億條Twitter信息的索引系統(tǒng)無異于癡人說夢。
Twitter曾簽署一份協(xié)議,允許美國國會圖書館訪問該社交媒體網(wǎng)站中所發(fā)布的全部更新信息。館方官員坦言,他們必須建立一套幫助研究人員訪問社交平臺數(shù)據(jù)的系統(tǒng),因為隨著網(wǎng)絡(luò)化交流趨勢的不斷普及,以期刊及出版物為代表的傳統(tǒng)溝通方式已經(jīng)被逐漸取代。
國會圖書館杰弗遜大廈
在Twitter剛剛誕生的2006年到2010年間,首批數(shù)據(jù)轉(zhuǎn)儲文件為20TB,其中囊括了210億條Twitter信息(包括用戶當(dāng)前位置及消息描述等元數(shù)據(jù))。最近,館方剛剛迎來第二批轉(zhuǎn)儲數(shù)據(jù)--總體而言,這部分副本壓縮文件總體積為133.2TB。在此之后,圖書館將與Gnip公司展開合作,以小時為單位收集全部Twitter發(fā)布信息。2011年2月公布的統(tǒng)計數(shù)字顯示,當(dāng)時每天經(jīng)由Twitter發(fā)布的信息約為1.4億條;而到去年10月,這一數(shù)字已經(jīng)增長到約5億條。
研究人員強烈要求國會圖書館盡快開放數(shù)據(jù)訪問功能--館方稱已經(jīng)接到超過四百次此類請求。該項目由圖書館與Twitter雙方并行實施,將為用戶提供Twitter使用的歷史記錄,能夠逐項列出他們通過賬戶發(fā)布過的每條信息。
美國國會圖書館在大數(shù)據(jù)管理方面算得上經(jīng)驗豐富:根據(jù)工作人員的說法,館方自2000年開始就一直在為政府網(wǎng)站進行數(shù)據(jù)歸檔整理工作,數(shù)據(jù)總量超過300TB。然而Twitter的出現(xiàn)令歸檔工作陷入僵局,因為館方實在找不到合適的辦法保證信息易于搜索。如果繼續(xù)使用館方長期以來一直所倚仗的磁帶存儲方案,那么僅查詢一條2006到2010之間的Twitter信息就需要耗費最多24個小時--而這批轉(zhuǎn)儲數(shù)據(jù)還僅占數(shù)據(jù)總量的八分之一。"Twitter信息之所以難于整理,一方面是由于數(shù)據(jù)量過于龐大,另一方面則是因為每天都會有新數(shù)據(jù)不斷加入進來,而這種增長速度仍在不斷提升,"官方指出。"此外,Twitter信息的種類也越來越多樣。普通Twiiter信息、利用軟件客戶端發(fā)出的自動回復(fù)信息、手動回復(fù)信息、包含鏈接或者圖片的信息等等,這一切讓我們無從下手。"
尋找解決方案的道路是曲折的。國會圖書館已經(jīng)開始考慮分布式及并行計算方案,但這兩類系統(tǒng)實在太過昂貴。"要想真正實現(xiàn)搜索時間的顯著降低,我們需要構(gòu)建起由數(shù)百乃至數(shù)千臺服務(wù)器組成的龐大基礎(chǔ)設(shè)施。這對于我們這種毫無商業(yè)收益的機構(gòu)來說成本過高、根本不切實際。"
那么館方到底該如何應(yīng)對?大數(shù)據(jù)專家們給出了一系列參考方案。就國會圖書館的情況而言,技術(shù)團隊也許***進行分類處理的方式,即利用一款工具處理數(shù)據(jù)存儲、一款工具負(fù)責(zé)檢索工作、另一款則用于回應(yīng)查詢請求,Mark Phillips指出。他既在Basho擔(dān)任社區(qū)及開發(fā)推廣主管,同時也是開源數(shù)據(jù)庫工具Raik的創(chuàng)始人(該工具在鍵-值存儲方面便利而***可擴展性)。
大數(shù)據(jù)管理工具已經(jīng)構(gòu)建起欣欣向榮的新興行業(yè),用戶可以根據(jù)不同的使用需求與預(yù)期成本選擇專有軟件或者開源方案。國會圖書館的技術(shù)人員所面臨的***問題在于,他們該如何開始整套系統(tǒng)的創(chuàng)建和管理工作。如果館方希望走開源的道路,那么可選的數(shù)據(jù)庫創(chuàng)建及管理工具可謂百花齊放--從Hadoop集群到專門針對高輸入/輸出讀寫操作的Greenplum數(shù)據(jù)庫可謂應(yīng)有盡有。二者還能夠與Apache Solar--一款開源搜索工具--加以整合。開源為開發(fā)者們指明了一條免費獲取源代碼的光明道路,能夠在商業(yè)硬件上構(gòu)建起理想中的系統(tǒng)成品,然而采用開源也意味著我們需要在后端開發(fā)工作中投入大量人力物力。當(dāng)然,國會圖書館也完全可以走更昂貴但更省心的專有軟件道路,從甲骨文或者SAP這些業(yè)界巨頭那里直接采購數(shù)據(jù)庫產(chǎn)品。
不過無論采取哪種方式,Twitter項目中那碩大無朋的數(shù)據(jù)總量仍然難以攻克。不過Phillips的態(tài)度給了我們一定信心。他指出,雖然Twitter目前的數(shù)據(jù)量已經(jīng)達到133TB且仍處于快速增長之中,但Basho公司已經(jīng)接觸過數(shù)據(jù)量達到PB級別的客戶,并且在自己的平臺上順利完成了任務(wù)。只要國會圖書館能夠追蹤并總結(jié)出數(shù)據(jù)庫容量每個月或每個季度的增長幅度,并根據(jù)結(jié)果為數(shù)據(jù)存儲配備充足的硬件資源,那么Basho的數(shù)據(jù)庫軟件將有能力解決館方的難題。
那么使用云方案可不可行呢?從理論上講,國會圖書館可以采用以Amazon Web Services為代表的公共云資源保存這些數(shù)據(jù),而且隨著Twitter信息總量的不斷增長,AWS會自動處理必要的硬件擴容工作。然而在Basho公司工程師Seth Thomas看來,這種方案的長期性價比值得商榷。由于館方顯然打算***保存這些數(shù)據(jù),所以混合式架構(gòu)可能更具經(jīng)濟效益。也許更好的辦法是將數(shù)據(jù)保存在本地,然后利用云服務(wù)實現(xiàn)分析功能。如此一來,館方只需根據(jù)搜索量為響應(yīng)請求所投入的動態(tài)資源支付費用即可,而終端系統(tǒng)也只需處理與請求量相對應(yīng)的工作負(fù)載。
無論如何,國會圖書館已經(jīng)下決心將這些Twitter信息納入檢索體系。而身為普通用戶,我們要注意的則是--只要更新Twitter,信息就會被記錄下來。
原文鏈接:http://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn
原文標(biāo)題:Talk about big data: How the Library of Congress can index all 170 billion tweets ever posted