道客巴巴CTO劉斌:10億文檔的數(shù)據(jù)挖掘與應(yīng)用
原創(chuàng)2016年8月26-27日,由51CTO.com主辦的【W(wǎng)OT2016移動互聯(lián)網(wǎng)技術(shù)峰會】在北京粵財JW萬豪酒店隆重召開。自2012年以來,WOT品牌大會秉承專注技術(shù)、服務(wù)技術(shù)人員的理念已經(jīng)成功舉辦十一屆,不僅積累了大量的專家資源,更獲得廣大IT從業(yè)者和技術(shù)愛好者的認(rèn)可和好評,并成為業(yè)界重要的技術(shù)分享及人脈拓展平臺。
會議現(xiàn)場,道客巴巴CTO劉斌接受了記者采訪,結(jié)合道客巴巴文檔分享平臺實際發(fā)展情況及現(xiàn)有技術(shù)架構(gòu),深入解析了道客巴巴對億級文檔的概念理解以及對億級文檔的數(shù)據(jù)挖掘與應(yīng)用。
道客巴巴CTO劉斌
道客巴巴:億級文檔分享平臺
作為在線文檔分享平臺,道客巴巴致力于為數(shù)億互聯(lián)網(wǎng)用戶打造自由交流與平等學(xué)習(xí)的開放式互動平臺,讓更多用戶在分享知識中提升自我。經(jīng)過多年發(fā)展,用戶分享至道客巴巴的文檔數(shù)量已經(jīng)超過了10億,文檔內(nèi)容涵蓋了考試資料、教學(xué)課件、學(xué)術(shù)論文、應(yīng)用文書、企業(yè)文案、行業(yè)研究資料等幾十個領(lǐng)域。
記者了解到,在文檔分享領(lǐng)域,道客巴巴注重文檔以質(zhì)為本,服務(wù)以人為本,技術(shù)以新為本。作為國內(nèi)首家提供免費全文閱讀的文檔分享平臺,道客巴巴實現(xiàn)了從連接人與信息向連接人與服務(wù)轉(zhuǎn)換的飛躍。道客巴巴現(xiàn)有的文檔分享平臺、任務(wù)互助平臺、企業(yè)文庫等產(chǎn)品既能給用戶提供價值,同時用戶也能給產(chǎn)品提供價值,進(jìn)而用戶與用戶之間實現(xiàn)價值的交換與滿足。
安全存儲:10億文檔的首要挑戰(zhàn)
目前,道客巴巴的文檔數(shù)量已經(jīng)達(dá)到10億,如此海量的文檔內(nèi)容,給數(shù)據(jù)存儲技術(shù)帶來了哪些挑戰(zhàn)?
劉斌表示,網(wǎng)站建設(shè)初期,道客巴巴采用原始的存儲方式,雖然采用了Raid5架構(gòu),避免了單個硬盤故障導(dǎo)致的數(shù)據(jù)丟失,但如果計算機(jī)其他硬件出現(xiàn)故障,可能導(dǎo)致該計算機(jī)上的數(shù)據(jù)短時間內(nèi)無法正常服務(wù)。為了改善這一情況,道客巴巴結(jié)合開源軟件Hadoop的分布式架構(gòu),并對小的文檔文件進(jìn)行自定義索引合并,生成適合Hadoop存儲的大文件,避免了Hadoop小文件過多導(dǎo)致的性能問題。同時,道客巴巴通過多副本的形式進(jìn)行存儲,以保證單臺計算機(jī)出現(xiàn)故障時,其他計算機(jī)可以將故障的數(shù)據(jù)備份,從而保證數(shù)據(jù)的安全存儲。
文檔去重:十億文檔的冗余問題
目前,道客巴巴用戶數(shù)已達(dá)7000萬,每天上傳大量文檔,其中難免會有重復(fù)文檔,如何避免相同或相似的文檔被重復(fù)上傳并發(fā)布?對此,道客巴巴特別建立了文檔驗重去重技術(shù)體系:積累了百億級的驗重基礎(chǔ)數(shù)據(jù)元,采用了分布式的并行計算方式,高效的檢測出文檔是否重復(fù)并得到文檔內(nèi)容的重復(fù)率,對于相同或相似的文檔進(jìn)行了有效過濾,保證了文檔內(nèi)容的***性和優(yōu)質(zhì)性。
數(shù)據(jù)挖掘:全文檢索及智能分類
在應(yīng)對存儲和去重挑戰(zhàn)的同時,為了給用戶提供更高質(zhì)量的服務(wù),道客巴巴對數(shù)億優(yōu)質(zhì)文檔進(jìn)行了更深入的數(shù)據(jù)挖掘,讓用戶在數(shù)億文檔中快速、精確的檢索到自己需要的內(nèi)容,同時,網(wǎng)站可以根據(jù)用戶的閱讀行為,主動為用戶推薦更加符合用戶需求的文檔。
道客巴巴采用了全文檢索技術(shù),對數(shù)億文檔內(nèi)容進(jìn)行了分詞索引,采用了數(shù)十臺高性能服務(wù)器進(jìn)行分布式并行全文檢索,將檢索結(jié)果匯總到主服務(wù)器并進(jìn)行文檔排序,將優(yōu)質(zhì)文檔毫秒級展示給用戶。
由于道客巴巴用戶的分散性,導(dǎo)致上傳的部分文檔未能精確匹配已有分類。為了提高文檔分類的準(zhǔn)確性,道客巴巴特別采用了智能分類技術(shù)解決方案。經(jīng)過多年的積累,每個分類下匯集了大量精確文檔作為計算機(jī)學(xué)習(xí)樣本,通過智能分類算法,對未知文檔進(jìn)行有效分類。
挑戰(zhàn)與機(jī)遇:文檔服務(wù)的未來
目前,大部分文檔閱讀平臺基本都采用Flash閱讀方案,隨著HTML5技術(shù)的發(fā)展,F(xiàn)lash逐漸被替代,文檔的在線閱讀方案也將面臨技術(shù)改革,陸續(xù)過渡到HTML5的閱讀方式,但由于HTML5在文檔的內(nèi)容保護(hù)方面尚存欠缺,如何保證文檔內(nèi)容的安全性,成為此次技術(shù)改革的難點。針對此次難點,道客巴巴研發(fā)團(tuán)隊綜合了國內(nèi)外多方面經(jīng)驗,為下一步技術(shù)過渡打好基礎(chǔ)。另外,在搜索和驗重方面,業(yè)內(nèi)所采用的方法很難實現(xiàn)語義上的識別,道客巴巴已經(jīng)突破了同義詞的重復(fù)識別,但是在語義分析上同樣面臨著巨大挑戰(zhàn),解決這一技術(shù)難題,是道客巴巴提升文檔服務(wù)的努力方向與重要目標(biāo)。
以上是51CTO.com記者從【W(wǎng)OT2016移動互聯(lián)網(wǎng)技術(shù)峰會】一線為您帶來的精彩報道。更多精彩內(nèi)容報道,敬請持續(xù)關(guān)注!