成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<output id="16111"></output>

<output id="16111"></output>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

搜索那點(diǎn)事兒：Lucene 文件存儲和讀取技術(shù)詳解

作者：劉光敏 2017-09-15 16:00:48

大數(shù)據(jù)

Lucene是一個高性能、可伸縮的信息搜索(IR)庫。它可以為你的應(yīng)用程序添加索引和搜索能力。Lucene是用Java實(shí)現(xiàn)的、成熟的開源項(xiàng)目，是著名的Apache Jakarta大家庭的一員，并且基于Apache軟件許可。

Lucene是一個高性能、可伸縮的信息搜索(IR)庫。它可以為你的應(yīng)用程序添加索引和搜索能力。Lucene是用Java實(shí)現(xiàn)的、成熟的開源項(xiàng)目，是著名的Apache Jakarta大家庭的一員，并且基于Apache軟件許可。

Lucene的檢索算法屬于索引檢索，即用空間來換取時間，對需要檢索的文件、字符流進(jìn)行全文索引，在檢索的時候?qū)λ饕M(jìn)行快速的檢索，得到檢索位置，這個位置記錄檢索詞出現(xiàn)的文件路徑或者某個關(guān)鍵詞。Lucene的索引是用文件存儲，Lucene中的文件操作都是通過Directory來實(shí)現(xiàn)，下面來介紹一下Lucene有關(guān)文件存儲和讀取的有關(guān)技術(shù)。

1 數(shù)據(jù)存儲類Directory(org.apache.lucene.store.Directory)

一個Directory對象是一系列統(tǒng)一的文件列表(a flat list of files)。文件可以在它們被創(chuàng)建的時候一次寫入，一旦文件被創(chuàng)建，它再次打開后只能用于讀取(read)或者刪除(delete)操作,并且同時在讀取和寫入的時候允許隨機(jī)訪問(random access)。

在這里并不直接使用Java I/O API，但是更確切地說，所有I/O操作都是通過這個API處理的。這使得讀寫操作方式更統(tǒng)一，如基于內(nèi)存的索引(RAM-based indices)的實(shí)現(xiàn)(即RAMDirectory)、通過JDBC存儲在數(shù)據(jù)庫中的索引、將一個索引存儲為一個文件的實(shí)現(xiàn)(即FSDirectory)。

Directory的鎖機(jī)制是一個LockFactory的實(shí)例實(shí)現(xiàn)的，可以通過調(diào)用Directory實(shí)例的setLockFactory()方法來更改。

如下圖是org.apache.lucene.store.Directory類以及它的一些子類的類圖：

(1) org.apache.lucene.store.FSDirectory

FSDirectory類直接實(shí)現(xiàn)Directory抽象類為一個包含文件的目錄。目錄鎖的實(shí)現(xiàn)使用缺省的SimpleFSLockFactory，但是可以通過兩種方式修改，即給getLockFactory()傳入一個LockFactory實(shí)例，或者通過調(diào)用setLockFactory()方法明確制定LockFactory類。

目錄將被緩存(cache)起來，對一個指定的符合規(guī)定的路徑(canonical path)來說，同樣的FSDirectory實(shí)例通常通過getDirectory()方法返回。這使得同步機(jī)制(synchronization)能對目錄起作用。

(2) org.apache.lucene.store.RAMDirectory

RAMDirectory類是一個駐留內(nèi)存的(memory-resident)Directory抽象類的實(shí)現(xiàn)。目錄鎖的實(shí)現(xiàn)使用缺省的SingleInstanceLockFactory，但是可以通過setLockFactory()方法修改。

(3) org.apache.lucene.store.MMapDirectory

Lucene和Solr開始在64位的Windows和Solaris系統(tǒng)中默認(rèn)使用MMapDirectory。簡單說MMapDirectory就是把Lucene的索引當(dāng)作swap file來處理。mmap()系統(tǒng)調(diào)用讓OS把整個索引文件映射到虛擬地址空間，這樣Lucene就會覺得索引在內(nèi)存中。然后Lucene就可以像訪問一個超大的byte[]數(shù)據(jù)(在Java中這個數(shù)據(jù)被封裝在ByteBuffer接口里)一樣訪問磁盤上的索引文件。

Lucene在訪問虛擬空間中的索引時，不需要任何的系統(tǒng)調(diào)用，CPU里的MMU和TLB會處理所有的映射工作。如果數(shù)據(jù)還在磁盤上，那么MMU會發(fā)起一個中斷，OS將會把數(shù)據(jù)加載進(jìn)文件系統(tǒng)Cache。如果數(shù)據(jù)已經(jīng)在cache里了，MMU/TLB會直接把數(shù)據(jù)映射到內(nèi)存，這只需要訪問內(nèi)存，速度很快。

程序員不需要關(guān)心paging in/out，所有的這些都交給OS。而且，這種情況下沒有并發(fā)的干擾，***的問題就是Java的ByteBuffer封裝后的byte[]稍微慢一些，但是Java里要想用mmap就只能用這個接口。還有一個很大的優(yōu)點(diǎn)就是所有的內(nèi)存issue都由OS來負(fù)責(zé)，這樣沒有GC的問題。因此在64位平臺上的Lucene，盡量使用MMapDirectory。

2 文件讀取類 IndexInput(org.apache.lucene.store.IndexInput)

IndexInput類是一個為了從一個目錄(Directory)中讀取文件的抽象基類，是一個隨機(jī)訪問(random-access)的輸入流(input stream)，用于所有Lucene讀取Index的操作。BufferedIndexInput是一個實(shí)現(xiàn)了帶緩沖的IndexInput的基礎(chǔ)實(shí)現(xiàn)。

3 文件寫入類IndexOutput(org.apache.lucene.store.IndexOutput)

IndexOutput類是一個為了寫入文件到一個目錄(Directory)中的抽象基類，是一個隨機(jī)訪問(random-access)的輸出流(output stream)，用于所有Lucene寫入Index的操作。BufferedIndexOutput是一個實(shí)現(xiàn)了帶緩沖的IndexOutput的基礎(chǔ)實(shí)現(xiàn)。RAMOuputStream是一個內(nèi)存駐留(memory-resident)的IndexOutput的實(shí)現(xiàn)類。

作為一種檢索系統(tǒng)框架，Lucene并不直接提供系統(tǒng)的實(shí)現(xiàn)，而僅僅是系統(tǒng)框架而已。因此，為了構(gòu)建一個真正可用的全文檢索系統(tǒng)，開發(fā)人員必須熟悉Lucene的基本框架以及API，這樣才能進(jìn)行高效的開發(fā)。

這一需求要求了Lucene具備一種簡明、方便的構(gòu)架與函數(shù)接口來方便用戶(即開發(fā)人員)的使用。這體現(xiàn)了Lucene需要很高的易用性(usability)。不僅如此，開源是Lucene的一個重大屬性。相比Google的pagerank搜索方案，Lucene必須不斷改進(jìn)其算法以及各種輔助措施來使得其運(yùn)行更加高效，并支持多種語言等。因此，Lucene必須具備很好的可修改性(modifiability)。

【本文為51CTO專欄作者“達(dá)觀數(shù)據(jù)”的原創(chuàng)稿件，轉(zhuǎn)載可通過51CTO專欄獲取聯(lián)系】

戳這里，看該作者更多好文

責(zé)任編輯：武曉燕來源： 51CTO專欄

Lucene 存儲讀取技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：视频一二区 | 日本在线视频一区二区 | 精品久久香蕉国产线看观看亚洲 | 国产成人精品999在线观看 | 黄色大全免费看 | 国产精品日韩在线观看一区二区 | 蜜桃av鲁一鲁一鲁一鲁 | 国产精品亚洲欧美日韩一区在线 | 天天久久 | 成人免费黄色 | 国产精品无码久久久久 | 一区二区精品在线 | 北条麻妃一区二区三区在线视频 | 亚洲精品国产电影 | 精品伦精品一区二区三区视频 | 久久免费看 | 99精品久久久久 | 久久99视频 | 国产福利在线视频 | 欧美视频一区二区三区 | 美女网站视频免费黄 | 国产精品视频一区二区三区不卡 | 国产大片一区 | 色资源站| 亚洲中文欧美日韩在线观看 | 日韩欧美二区 | 99久久精品国产一区二区三区 | 色又黄又爽网站www久久 | 99精品国自产在线 | 中文字幕乱码一区二区三区 | 久久久综合网 | 国产黄色在线 | 曰韩一二三区 | 米奇7777狠狠狠狠视频 | 国产精品久久久久久久白浊 | 成人夜晚看av | 亚洲区中文字幕 | 国产日韩精品视频 | 中文字幕在线播放第一页 | 国产一区二区 | 真人毛片 |

<ol id="61116"><dl id="61116"><meter id="61116"></meter></dl></ol>

<output id="61116"></output>

<mark id="61116"><form id="61116"></form></mark>

<ol id="61116"><dl id="61116"><meter id="61116"></meter></dl></ol>