成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

道客巴巴CTO劉斌:10億文檔的數(shù)據(jù)挖掘與應(yīng)用

原創(chuàng)
云計算
2016年8月26-27日,由51CTO.com主辦的【W(wǎng)OT2016移動互聯(lián)網(wǎng)技術(shù)峰會】在北京粵財JW萬豪酒店隆重召開。在大會現(xiàn)場,道客巴巴CTO劉斌接受了記者采訪,結(jié)合道客巴巴文檔分享平臺實際發(fā)展情況及現(xiàn)有技術(shù)架構(gòu),深入解析了道客巴巴對億級文檔的概念理解以及對億級文檔的數(shù)據(jù)挖掘與應(yīng)用。

2016年8月26-27日,由51CTO.com主辦的【W(wǎng)OT2016移動互聯(lián)網(wǎng)技術(shù)峰會】在北京粵財JW萬豪酒店隆重召開。自2012年以來,WOT品牌大會秉承專注技術(shù)、服務(wù)技術(shù)人員的理念已經(jīng)成功舉辦十一屆,不僅積累了大量的專家資源,更獲得廣大IT從業(yè)者和技術(shù)愛好者的認(rèn)可和好評,并成為業(yè)界重要的技術(shù)分享及人脈拓展平臺。

會議現(xiàn)場,道客巴巴CTO劉斌接受了記者采訪,結(jié)合道客巴巴文檔分享平臺實際發(fā)展情況及現(xiàn)有技術(shù)架構(gòu),深入解析了道客巴巴對億級文檔的概念理解以及對億級文檔的數(shù)據(jù)挖掘與應(yīng)用。

 

[[170767]]

道客巴巴CTO劉斌


道客巴巴:億級文檔分享平臺

作為在線文檔分享平臺,道客巴巴致力于為數(shù)億互聯(lián)網(wǎng)用戶打造自由交流與平等學(xué)習(xí)的開放式互動平臺,讓更多用戶在分享知識中提升自我。經(jīng)過多年發(fā)展,用戶分享至道客巴巴的文檔數(shù)量已經(jīng)超過了10億,文檔內(nèi)容涵蓋了考試資料、教學(xué)課件、學(xué)術(shù)論文、應(yīng)用文書、企業(yè)文案、行業(yè)研究資料等幾十個領(lǐng)域。

記者了解到,在文檔分享領(lǐng)域,道客巴巴注重文檔以質(zhì)為本,服務(wù)以人為本,技術(shù)以新為本。作為國內(nèi)首家提供免費全文閱讀的文檔分享平臺,道客巴巴實現(xiàn)了從連接人與信息向連接人與服務(wù)轉(zhuǎn)換的飛躍。道客巴巴現(xiàn)有的文檔分享平臺、任務(wù)互助平臺、企業(yè)文庫等產(chǎn)品既能給用戶提供價值,同時用戶也能給產(chǎn)品提供價值,進(jìn)而用戶與用戶之間實現(xiàn)價值的交換與滿足。

安全存儲:10億文檔的首要挑戰(zhàn)

目前,道客巴巴的文檔數(shù)量已經(jīng)達(dá)到10億,如此海量的文檔內(nèi)容,給數(shù)據(jù)存儲技術(shù)帶來了哪些挑戰(zhàn)?

劉斌表示,網(wǎng)站建設(shè)初期,道客巴巴采用原始的存儲方式,雖然采用了Raid5架構(gòu),避免了單個硬盤故障導(dǎo)致的數(shù)據(jù)丟失,但如果計算機(jī)其他硬件出現(xiàn)故障,可能導(dǎo)致該計算機(jī)上的數(shù)據(jù)短時間內(nèi)無法正常服務(wù)。為了改善這一情況,道客巴巴結(jié)合開源軟件Hadoop的分布式架構(gòu),并對小的文檔文件進(jìn)行自定義索引合并,生成適合Hadoop存儲的大文件,避免了Hadoop小文件過多導(dǎo)致的性能問題。同時,道客巴巴通過多副本的形式進(jìn)行存儲,以保證單臺計算機(jī)出現(xiàn)故障時,其他計算機(jī)可以將故障的數(shù)據(jù)備份,從而保證數(shù)據(jù)的安全存儲。

文檔去重:十億文檔的冗余問題

目前,道客巴巴用戶數(shù)已達(dá)7000萬,每天上傳大量文檔,其中難免會有重復(fù)文檔,如何避免相同或相似的文檔被重復(fù)上傳并發(fā)布?對此,道客巴巴特別建立了文檔驗重去重技術(shù)體系:積累了百億級的驗重基礎(chǔ)數(shù)據(jù)元,采用了分布式的并行計算方式,高效的檢測出文檔是否重復(fù)并得到文檔內(nèi)容的重復(fù)率,對于相同或相似的文檔進(jìn)行了有效過濾,保證了文檔內(nèi)容的***性和優(yōu)質(zhì)性。

數(shù)據(jù)挖掘:全文檢索及智能分類

在應(yīng)對存儲和去重挑戰(zhàn)的同時,為了給用戶提供更高質(zhì)量的服務(wù),道客巴巴對數(shù)億優(yōu)質(zhì)文檔進(jìn)行了更深入的數(shù)據(jù)挖掘,讓用戶在數(shù)億文檔中快速、精確的檢索到自己需要的內(nèi)容,同時,網(wǎng)站可以根據(jù)用戶的閱讀行為,主動為用戶推薦更加符合用戶需求的文檔。

道客巴巴采用了全文檢索技術(shù),對數(shù)億文檔內(nèi)容進(jìn)行了分詞索引,采用了數(shù)十臺高性能服務(wù)器進(jìn)行分布式并行全文檢索,將檢索結(jié)果匯總到主服務(wù)器并進(jìn)行文檔排序,將優(yōu)質(zhì)文檔毫秒級展示給用戶。

由于道客巴巴用戶的分散性,導(dǎo)致上傳的部分文檔未能精確匹配已有分類。為了提高文檔分類的準(zhǔn)確性,道客巴巴特別采用了智能分類技術(shù)解決方案。經(jīng)過多年的積累,每個分類下匯集了大量精確文檔作為計算機(jī)學(xué)習(xí)樣本,通過智能分類算法,對未知文檔進(jìn)行有效分類。

挑戰(zhàn)與機(jī)遇:文檔服務(wù)的未來

目前,大部分文檔閱讀平臺基本都采用Flash閱讀方案,隨著HTML5技術(shù)的發(fā)展,F(xiàn)lash逐漸被替代,文檔的在線閱讀方案也將面臨技術(shù)改革,陸續(xù)過渡到HTML5的閱讀方式,但由于HTML5在文檔的內(nèi)容保護(hù)方面尚存欠缺,如何保證文檔內(nèi)容的安全性,成為此次技術(shù)改革的難點。針對此次難點,道客巴巴研發(fā)團(tuán)隊綜合了國內(nèi)外多方面經(jīng)驗,為下一步技術(shù)過渡打好基礎(chǔ)。另外,在搜索和驗重方面,業(yè)內(nèi)所采用的方法很難實現(xiàn)語義上的識別,道客巴巴已經(jīng)突破了同義詞的重復(fù)識別,但是在語義分析上同樣面臨著巨大挑戰(zhàn),解決這一技術(shù)難題,是道客巴巴提升文檔服務(wù)的努力方向與重要目標(biāo)。

以上是51CTO.com記者從【W(wǎng)OT2016移動互聯(lián)網(wǎng)技術(shù)峰會】一線為您帶來的精彩報道。更多精彩內(nèi)容報道,敬請持續(xù)關(guān)注!

責(zé)任編輯:鳶瑋 來源: 51cto
相關(guān)推薦

2016-10-31 11:38:36

文檔數(shù)據(jù)

2012-05-23 09:40:09

HTML5

2022-04-27 07:37:42

ReactReact18

2012-06-27 09:45:41

ibmdw

2018-05-23 09:03:36

2009-03-05 11:02:12

NTP列式壓縮云計算

2015-07-17 15:56:33

Office2007

2015-09-21 09:20:55

2009-01-19 16:44:31

數(shù)據(jù)挖掘沃爾瑪應(yīng)用

2012-07-06 16:19:23

華為服務(wù)器

2015-10-15 17:58:29

阿里云大數(shù)據(jù)云棲大會

2011-07-29 15:22:05

XCode4 Cocos2D 文檔集成

2011-05-16 11:14:28

惠普掃描儀評測

2016-10-17 16:19:43

數(shù)據(jù)挖掘問題

2016-05-23 15:42:07

數(shù)據(jù)挖掘

2014-08-06 09:00:55

2018-09-07 18:25:47

2014-03-10 17:00:31

2020-09-28 10:05:57

數(shù)據(jù)工具技術(shù)

2018-08-27 14:44:42

文檔云
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 天天操精品视频 | 九九热这里 | 日本三级网址 | 成人h视频在线 | 精品久久99 | 国产黄色小视频在线观看 | 国产精品久久久久久久午夜片 | 9999国产精品欧美久久久久久 | 欧美一级久久 | 波多野结衣先锋影音 | 日日操操 | 人人亚洲| 国产一二三区免费视频 | 欧美99| 欧美一区| 久草99| 一级黄a视频 | 精品久久久999 | 国产精品久久久久久久久免费高清 | 日韩一区二区在线看 | 国产视频一区二区三区四区五区 | 欧美在线国产精品 | 久久免费视频网 | 成人av色 | 日韩一区二区在线看 | 亚洲一区二区精品视频 | 国产一区二区 | 精品国产乱码久久久久久蜜臀 | 精品日韩一区 | 欧美一级片a| 国产超碰人人爽人人做人人爱 | 亚洲高清一区二区三区 | 欧美另类视频 | 在线成人 | 久久久久国产一区二区三区四区 | 久久久tv | 在线免费观看日本 | 国产精品成av人在线视午夜片 | 欧美精品在线播放 | 天堂av中文在线 | 在线视频国产一区 |