成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)探討:如何整理1700億條Twitter發(fā)布信息?

譯文
系統(tǒng) 新聞
截至目前,美國國會圖書館所保存的Twitter信息數(shù)量已達到1700億條、存儲文件體積更到達133TB--由于每一條信息都已經(jīng)在這套社交網(wǎng)絡(luò)中分享及轉(zhuǎn)載,這么龐大的數(shù)據(jù)改如何整理?

  【51CTO外電頭條】隨著社交網(wǎng)絡(luò)蒸蒸日上,美國國會圖書館不得不面對達到133TB之巨的Twitter發(fā)布信息文件;好在經(jīng)過實踐,他們已經(jīng)找到了管理此類數(shù)據(jù)的辦法。

  截至目前,美國國會圖書館所保存的Twitter信息數(shù)量已達到1700億條、存儲文件體積更到達133TB--由于每一條信息都已經(jīng)在這套社交網(wǎng)絡(luò)中分享及轉(zhuǎn)載,圖書館的技術(shù)團隊需要想辦法為用戶拿出切實可行的檢索方案。

  在現(xiàn)階段的項目報告中,圖書館管理人員指出目前市場上提供的此類大數(shù)據(jù)管理工具無法解決他們的實際困難。"很顯然,現(xiàn)有技術(shù)還只能滿足獎學(xué)金信息等規(guī)模化數(shù)據(jù)集的訪問需求,而在創(chuàng)建及發(fā)布此類數(shù)據(jù)方面則表現(xiàn)乏力,"館方表示。"由于此類任務(wù)的復(fù)雜性及對資源的極高要求,私營部門尚無法拿出具備合理性價比的商業(yè)方案。"

  如果私營企業(yè)都難以搞定大數(shù)據(jù)管理工作,那么預(yù)算拮據(jù)、全靠政府資金支持的非營利性機構(gòu)--包括全球***的圖書館在內(nèi)--又該如何解決這一難題?要拿出一套實用、經(jīng)濟、便捷且有能力處理1700億條Twitter信息的索引系統(tǒng)無異于癡人說夢。

  Twitter曾簽署一份協(xié)議,允許美國國會圖書館訪問該社交媒體網(wǎng)站中所發(fā)布的全部更新信息。館方官員坦言,他們必須建立一套幫助研究人員訪問社交平臺數(shù)據(jù)的系統(tǒng),因為隨著網(wǎng)絡(luò)化交流趨勢的不斷普及,以期刊及出版物為代表的傳統(tǒng)溝通方式已經(jīng)被逐漸取代。

[[60188]]

  國會圖書館杰弗遜大廈

  在Twitter剛剛誕生的2006年到2010年間,首批數(shù)據(jù)轉(zhuǎn)儲文件為20TB,其中囊括了210億條Twitter信息(包括用戶當(dāng)前位置及消息描述等元數(shù)據(jù))。最近,館方剛剛迎來第二批轉(zhuǎn)儲數(shù)據(jù)--總體而言,這部分副本壓縮文件總體積為133.2TB。在此之后,圖書館將與Gnip公司展開合作,以小時為單位收集全部Twitter發(fā)布信息。2011年2月公布的統(tǒng)計數(shù)字顯示,當(dāng)時每天經(jīng)由Twitter發(fā)布的信息約為1.4億條;而到去年10月,這一數(shù)字已經(jīng)增長到約5億條。

  研究人員強烈要求國會圖書館盡快開放數(shù)據(jù)訪問功能--館方稱已經(jīng)接到超過四百次此類請求。該項目由圖書館與Twitter雙方并行實施,將為用戶提供Twitter使用的歷史記錄,能夠逐項列出他們通過賬戶發(fā)布過的每條信息。

  美國國會圖書館在大數(shù)據(jù)管理方面算得上經(jīng)驗豐富:根據(jù)工作人員的說法,館方自2000年開始就一直在為政府網(wǎng)站進行數(shù)據(jù)歸檔整理工作,數(shù)據(jù)總量超過300TB。然而Twitter的出現(xiàn)令歸檔工作陷入僵局,因為館方實在找不到合適的辦法保證信息易于搜索。如果繼續(xù)使用館方長期以來一直所倚仗的磁帶存儲方案,那么僅查詢一條2006到2010之間的Twitter信息就需要耗費最多24個小時--而這批轉(zhuǎn)儲數(shù)據(jù)還僅占數(shù)據(jù)總量的八分之一。"Twitter信息之所以難于整理,一方面是由于數(shù)據(jù)量過于龐大,另一方面則是因為每天都會有新數(shù)據(jù)不斷加入進來,而這種增長速度仍在不斷提升,"官方指出。"此外,Twitter信息的種類也越來越多樣。普通Twiiter信息、利用軟件客戶端發(fā)出的自動回復(fù)信息、手動回復(fù)信息、包含鏈接或者圖片的信息等等,這一切讓我們無從下手。"

  尋找解決方案的道路是曲折的。國會圖書館已經(jīng)開始考慮分布式及并行計算方案,但這兩類系統(tǒng)實在太過昂貴。"要想真正實現(xiàn)搜索時間的顯著降低,我們需要構(gòu)建起由數(shù)百乃至數(shù)千臺服務(wù)器組成的龐大基礎(chǔ)設(shè)施。這對于我們這種毫無商業(yè)收益的機構(gòu)來說成本過高、根本不切實際。"

  那么館方到底該如何應(yīng)對?大數(shù)據(jù)專家們給出了一系列參考方案。就國會圖書館的情況而言,技術(shù)團隊也許***進行分類處理的方式,即利用一款工具處理數(shù)據(jù)存儲、一款工具負(fù)責(zé)檢索工作、另一款則用于回應(yīng)查詢請求,Mark Phillips指出。他既在Basho擔(dān)任社區(qū)及開發(fā)推廣主管,同時也是開源數(shù)據(jù)庫工具Raik的創(chuàng)始人(該工具在鍵-值存儲方面便利而***可擴展性)。

  大數(shù)據(jù)管理工具已經(jīng)構(gòu)建起欣欣向榮的新興行業(yè),用戶可以根據(jù)不同的使用需求與預(yù)期成本選擇專有軟件或者開源方案。國會圖書館的技術(shù)人員所面臨的***問題在于,他們該如何開始整套系統(tǒng)的創(chuàng)建和管理工作。如果館方希望走開源的道路,那么可選的數(shù)據(jù)庫創(chuàng)建及管理工具可謂百花齊放--從Hadoop集群到專門針對高輸入/輸出讀寫操作的Greenplum數(shù)據(jù)庫可謂應(yīng)有盡有。二者還能夠與Apache Solar--一款開源搜索工具--加以整合。開源為開發(fā)者們指明了一條免費獲取源代碼的光明道路,能夠在商業(yè)硬件上構(gòu)建起理想中的系統(tǒng)成品,然而采用開源也意味著我們需要在后端開發(fā)工作中投入大量人力物力。當(dāng)然,國會圖書館也完全可以走更昂貴但更省心的專有軟件道路,從甲骨文或者SAP這些業(yè)界巨頭那里直接采購數(shù)據(jù)庫產(chǎn)品。

  不過無論采取哪種方式,Twitter項目中那碩大無朋的數(shù)據(jù)總量仍然難以攻克。不過Phillips的態(tài)度給了我們一定信心。他指出,雖然Twitter目前的數(shù)據(jù)量已經(jīng)達到133TB且仍處于快速增長之中,但Basho公司已經(jīng)接觸過數(shù)據(jù)量達到PB級別的客戶,并且在自己的平臺上順利完成了任務(wù)。只要國會圖書館能夠追蹤并總結(jié)出數(shù)據(jù)庫容量每個月或每個季度的增長幅度,并根據(jù)結(jié)果為數(shù)據(jù)存儲配備充足的硬件資源,那么Basho的數(shù)據(jù)庫軟件將有能力解決館方的難題。

  那么使用云方案可不可行呢?從理論上講,國會圖書館可以采用以Amazon Web Services為代表的公共云資源保存這些數(shù)據(jù),而且隨著Twitter信息總量的不斷增長,AWS會自動處理必要的硬件擴容工作。然而在Basho公司工程師Seth Thomas看來,這種方案的長期性價比值得商榷。由于館方顯然打算***保存這些數(shù)據(jù),所以混合式架構(gòu)可能更具經(jīng)濟效益。也許更好的辦法是將數(shù)據(jù)保存在本地,然后利用云服務(wù)實現(xiàn)分析功能。如此一來,館方只需根據(jù)搜索量為響應(yīng)請求所投入的動態(tài)資源支付費用即可,而終端系統(tǒng)也只需處理與請求量相對應(yīng)的工作負(fù)載。

  無論如何,國會圖書館已經(jīng)下決心將這些Twitter信息納入檢索體系。而身為普通用戶,我們要注意的則是--只要更新Twitter,信息就會被記錄下來。

  原文鏈接:http://www.networkworld.com/news/2013/010813-loc-tweets-265627.html?hpg1=bn

  原文標(biāo)題:Talk about big data: How the Library of Congress can index all 170 billion tweets ever posted

責(zé)任編輯:黃丹 來源: 51CTO.com
相關(guān)推薦

2013-10-28 14:40:29

Teradata 大數(shù)據(jù)天睿

2014-04-08 10:55:15

2012-08-30 14:33:03

Spark

2021-01-25 12:25:49

物聯(lián)網(wǎng)智能冰箱IoT

2024-04-24 14:59:08

大數(shù)據(jù)

2012-12-06 10:59:51

大數(shù)據(jù)

2024-04-15 16:26:42

Twitter架構(gòu)

2017-11-28 17:41:39

大數(shù)據(jù)

2017-01-20 09:08:28

大數(shù)據(jù)路線應(yīng)用

2013-04-19 14:28:07

大數(shù)據(jù)

2013-05-14 10:01:57

Luchy Sort

2012-08-08 09:53:23

HadoopMapReduce

2015-10-23 09:37:19

大數(shù)據(jù)醫(yī)療美元

2013-12-24 16:16:36

2013-12-17 13:17:25

大數(shù)據(jù)

2024-04-24 15:08:17

2024-03-22 09:56:48

供應(yīng)鏈分析大數(shù)據(jù)

2019-01-25 13:22:50

RocketMQ數(shù)據(jù)處理

2013-05-14 09:17:14

Twitter大數(shù)據(jù)Lucky Sort

2010-11-18 09:11:38

HBase
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产综合在线视频 | 日韩一区二区在线视频 | 亚洲一区精品在线 | 国产精品18hdxxxⅹ在线 | 91精品中文字幕一区二区三区 | 日韩高清国产一区在线 | 日韩视频中文字幕 | 国产免费一二三区 | 亚洲成人日韩 | www.中文字幕av| 亚州成人 | 欧美一区二| 亚洲在线久久 | 亚洲精品视频在线播放 | 色又黄又爽网站www久久 | 一区二区三区久久 | 国产亚洲精品美女久久久久久久久久 | 婷婷久久五月 | 日韩一区二区三区四区五区六区 | 中文字幕欧美一区二区 | 另类 综合 日韩 欧美 亚洲 | 玖玖精品 | 黄色毛片在线看 | 国产高清在线精品 | 日韩欧美成人一区二区三区 | 成年人网站国产 | 国产精品久久久久久久久久久久 | 视频一区二区中文字幕日韩 | 国产欧美精品一区二区色综合 | 一区二区三区视频 | 日韩精品一区二 | 91精品国产一区二区三区蜜臀 | 久久三区 | 亚洲欧美精品在线观看 | 天天爱天天操 | 亚欧精品一区 | 成人免费视频网站在线看 | 二区三区在线观看 | 午夜国产一级 | 美女视频三区 | 成人精品国产免费网站 |