大數(shù)據(jù)探討：如何整理1700億條Twitter發(fā)布信息？

作者：核子可樂譯 2013-01-10 12:54:29

截至目前，美國國會圖書館所保存的Twitter信息數(shù)量已達到1700億條、存儲文件體積更到達133TB--由于每一條信息都已經(jīng)在這套社交網(wǎng)絡(luò)中分享及轉(zhuǎn)載，這么龐大的數(shù)據(jù)改如何整理？

　　【51CTO外電頭條】隨著社交網(wǎng)絡(luò)蒸蒸日上，美國國會圖書館不得不面對達到133TB之巨的Twitter發(fā)布信息文件；好在經(jīng)過實踐，他們已經(jīng)找到了管理此類數(shù)據(jù)的辦法。

　　截至目前，美國國會圖書館所保存的Twitter信息數(shù)量已達到1700億條、存儲文件體積更到達133TB--由于每一條信息都已經(jīng)在這套社交網(wǎng)絡(luò)中分享及轉(zhuǎn)載，圖書館的技術(shù)團隊需要想辦法為用戶拿出切實可行的檢索方案。

　　在現(xiàn)階段的項目報告中，圖書館管理人員指出目前市場上提供的此類大數(shù)據(jù)管理工具無法解決他們的實際困難。"很顯然，現(xiàn)有技術(shù)還只能滿足獎學(xué)金信息等規(guī)模化數(shù)據(jù)集的訪問需求，而在創(chuàng)建及發(fā)布此類數(shù)據(jù)方面則表現(xiàn)乏力，"館方表示。"由于此類任務(wù)的復(fù)雜性及對資源的極高要求，私營部門尚無法拿出具備合理性價比的商業(yè)方案。"

　　如果私營企業(yè)都難以搞定大數(shù)據(jù)管理工作，那么預(yù)算拮據(jù)、全靠政府資金支持的非營利性機構(gòu)--包括全球***的圖書館在內(nèi)--又該如何解決這一難題？要拿出一套實用、經(jīng)濟、便捷且有能力處理1700億條Twitter信息的索引系統(tǒng)無異于癡人說夢。

　　Twitter曾簽署一份協(xié)議，允許美國國會圖書館訪問該社交媒體網(wǎng)站中所發(fā)布的全部更新信息。館方官員坦言，他們必須建立一套幫助研究人員訪問社交平臺數(shù)據(jù)的系統(tǒng)，因為隨著網(wǎng)絡(luò)化交流趨勢的不斷普及，以期刊及出版物為代表的傳統(tǒng)溝通方式已經(jīng)被逐漸取代。

[[60188]]

　　國會圖書館杰弗遜大廈

　　在Twitter剛剛誕生的2006年到2010年間，首批數(shù)據(jù)轉(zhuǎn)儲文件為20TB，其中囊括了210億條Twitter信息（包括用戶當(dāng)前位置及消息描述等元數(shù)據(jù)）。最近，館方剛剛迎來第二批轉(zhuǎn)儲數(shù)據(jù)--總體而言，這部分副本壓縮文件總體積為133.2TB。在此之后，圖書館將與Gnip公司展開合作，以小時為單位收集全部Twitter發(fā)布信息。2011年2月公布的統(tǒng)計數(shù)字顯示，當(dāng)時每天經(jīng)由Twitter發(fā)布的信息約為1.4億條；而到去年10月，這一數(shù)字已經(jīng)增長到約5億條。

　　研究人員強烈要求國會圖書館盡快開放數(shù)據(jù)訪問功能--館方稱已經(jīng)接到超過四百次此類請求。該項目由圖書館與Twitter雙方并行實施，將為用戶提供Twitter使用的歷史記錄，能夠逐項列出他們通過賬戶發(fā)布過的每條信息。

　　美國國會圖書館在大數(shù)據(jù)管理方面算得上經(jīng)驗豐富：根據(jù)工作人員的說法，館方自2000年開始就一直在為政府網(wǎng)站進行數(shù)據(jù)歸檔整理工作，數(shù)據(jù)總量超過300TB。然而Twitter的出現(xiàn)令歸檔工作陷入僵局，因為館方實在找不到合適的辦法保證信息易于搜索。如果繼續(xù)使用館方長期以來一直所倚仗的磁帶存儲方案，那么僅查詢一條2006到2010之間的Twitter信息就需要耗費最多24個小時--而這批轉(zhuǎn)儲數(shù)據(jù)還僅占數(shù)據(jù)總量的八分之一。"Twitter信息之所以難于整理，一方面是由于數(shù)據(jù)量過于龐大，另一方面則是因為每天都會有新數(shù)據(jù)不斷加入進來，而這種增長速度仍在不斷提升，"官方指出。"此外，Twitter信息的種類也越來越多樣。普通Twiiter信息、利用軟件客戶端發(fā)出的自動回復(fù)信息、手動回復(fù)信息、包含鏈接或者圖片的信息等等，這一切讓我們無從下手。"

　　尋找解決方案的道路是曲折的。國會圖書館已經(jīng)開始考慮分布式及并行計算方案，但這兩類系統(tǒng)實在太過昂貴。"要想真正實現(xiàn)搜索時間的顯著降低，我們需要構(gòu)建起由數(shù)百乃至數(shù)千臺服務(wù)器組成的龐大基礎(chǔ)設(shè)施。這對于我們這種毫無商業(yè)收益的機構(gòu)來說成本過高、根本不切實際。"

　　那么館方到底該如何應(yīng)對？大數(shù)據(jù)專家們給出了一系列參考方案。就國會圖書館的情況而言，技術(shù)團隊也許***進行分類處理的方式，即利用一款工具處理數(shù)據(jù)存儲、一款工具負(fù)責(zé)檢索工作、另一款則用于回應(yīng)查詢請求，Mark Phillips指出。他既在Basho擔(dān)任社區(qū)及開發(fā)推廣主管，同時也是開源數(shù)據(jù)庫工具Raik的創(chuàng)始人（該工具在鍵-值存儲方面便利而***可擴展性）。

　　大數(shù)據(jù)管理工具已經(jīng)構(gòu)建起欣欣向榮的新興行業(yè)，用戶可以根據(jù)不同的使用需求與預(yù)期成本選擇專有軟件或者開源方案。國會圖書館的技術(shù)人員所面臨的***問題在于，他們該如何開始整套系統(tǒng)的創(chuàng)建和管理工作。如果館方希望走開源的道路，那么可選的數(shù)據(jù)庫創(chuàng)建及管理工具可謂百花齊放--從Hadoop集群到專門針對高輸入/輸出讀寫操作的Greenplum數(shù)據(jù)庫可謂應(yīng)有盡有。二者還能夠與Apache Solar--一款開源搜索工具--加以整合。開源為開發(fā)者們指明了一條免費獲取源代碼的光明道路，能夠在商業(yè)硬件上構(gòu)建起理想中的系統(tǒng)成品，然而采用開源也意味著我們需要在后端開發(fā)工作中投入大量人力物力。當(dāng)然，國會圖書館也完全可以走更昂貴但更省心的專有軟件道路，從甲骨文或者SAP這些業(yè)界巨頭那里直接采購數(shù)據(jù)庫產(chǎn)品。

　　不過無論采取哪種方式，Twitter項目中那碩大無朋的數(shù)據(jù)總量仍然難以攻克。不過Phillips的態(tài)度給了我們一定信心。他指出，雖然Twitter目前的數(shù)據(jù)量已經(jīng)達到133TB且仍處于快速增長之中，但Basho公司已經(jīng)接觸過數(shù)據(jù)量達到PB級別的客戶，并且在自己的平臺上順利完成了任務(wù)。只要國會圖書館能夠追蹤并總結(jié)出數(shù)據(jù)庫容量每個月或每個季度的增長幅度，并根據(jù)結(jié)果為數(shù)據(jù)存儲配備充足的硬件資源，那么Basho的數(shù)據(jù)庫軟件將有能力解決館方的難題。

　　那么使用云方案可不可行呢？從理論上講，國會圖書館可以采用以Amazon Web Services為代表的公共云資源保存這些數(shù)據(jù)，而且隨著Twitter信息總量的不斷增長，AWS會自動處理必要的硬件擴容工作。然而在Basho公司工程師Seth Thomas看來，這種方案的長期性價比值得商榷。由于館方顯然打算***保存這些數(shù)據(jù)，所以混合式架構(gòu)可能更具經(jīng)濟效益。也許更好的辦法是將數(shù)據(jù)保存在本地，然后利用云服務(wù)實現(xiàn)分析功能。如此一來，館方只需根據(jù)搜索量為響應(yīng)請求所投入的動態(tài)資源支付費用即可，而終端系統(tǒng)也只需處理與請求量相對應(yīng)的工作負(fù)載。

　　無論如何，國會圖書館已經(jīng)下決心將這些Twitter信息納入檢索體系。而身為普通用戶，我們要注意的則是--只要更新Twitter，信息就會被記錄下來。

　　原文鏈接：http://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn

　　原文標(biāo)題：Talk about big data: How the Library of Congress can index all 170 billion tweets ever posted

責(zé)任編輯：黃丹來源： 51CTO.com

大數(shù)據(jù)探討 Twitter

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)探討：如何整理1700億條Twitter發(fā)布信息？