成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從檢索增強——RAG看檢索技術(shù)的發(fā)展 原創(chuàng)

發(fā)布于 2024-10-9 09:48
瀏覽
0收藏

“ 檢索,一種世界性的難題 ”

檢索技術(shù)或者說搜索技術(shù)(雖然檢索與搜索有一定的區(qū)別)一直是一個世界級的難題,檢索技術(shù)可以說從人類出現(xiàn)就已經(jīng)開始了;只不過那時的檢索不叫檢索,叫找東西,只不過到二十一世紀(jì)之后,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)檢索成為了一個重要手段。

而今天我們就來談?wù)剻z索技術(shù)。

檢索

為什么標(biāo)題是從RAG看檢索技術(shù)?

RAG技術(shù)是在之前的文章中不只一次的介紹過,RAG是大模型技術(shù)的補充,大模型的表現(xiàn)在某種程度上依賴于RAG,而RAG最核心的一點就是更加高效和準(zhǔn)確的檢索。

但檢索技術(shù)卻不是因為RAG技術(shù)才出現(xiàn)的,在RAG技術(shù)出現(xiàn)之前,檢索技術(shù)用的最多的應(yīng)該就是搜索引擎了。

從檢索增強——RAG看檢索技術(shù)的發(fā)展-AI.x社區(qū)

從功能的角度出發(fā),互聯(lián)網(wǎng)技術(shù)的發(fā)展特別是移動互聯(lián)網(wǎng)時代的來臨,互聯(lián)網(wǎng)每天都會產(chǎn)生大量的數(shù)據(jù),而怎么把這些數(shù)據(jù)分門別類,讓需要的人快速從繁雜的數(shù)據(jù)中找到有用的東西,這是一個值得思考的問題。

而從技術(shù)的角度來說,在互聯(lián)網(wǎng)技術(shù)出現(xiàn)之前,數(shù)據(jù)或者說資料的管理方式主要是以紙質(zhì)文檔為主,而互聯(lián)網(wǎng)出現(xiàn)之后,數(shù)據(jù)主要以文件的形式存儲。

但做過技術(shù)的人都知道,文件存儲是一個費時又費力的東西;因此,這時一項偉大的發(fā)明出現(xiàn)了——那就是數(shù)據(jù)庫系統(tǒng)。

剛開始的數(shù)據(jù)庫系統(tǒng)是按照二維關(guān)系結(jié)構(gòu)構(gòu)建的關(guān)系數(shù)據(jù)庫系統(tǒng),到現(xiàn)在也在大量的使用,比如常見的mysql和oracle等。

使用數(shù)據(jù)庫的好處是什么?

好處就是速度快,數(shù)據(jù)一目了然,操作簡單方便。

而隨著技術(shù)的發(fā)展,不但數(shù)據(jù)量越來越多,數(shù)據(jù)形式和格式也越來越復(fù)雜,特別是非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)式增長;因此,非結(jié)構(gòu)化數(shù)據(jù)的存儲需求越來越大,而且也出現(xiàn)了很多非結(jié)構(gòu)化數(shù)據(jù)存儲中間件,比如mongodb和redis等。

從檢索增強——RAG看檢索技術(shù)的發(fā)展-AI.x社區(qū)

而數(shù)據(jù)存儲是一方面,數(shù)據(jù)的檢索也是一方面;關(guān)系型數(shù)據(jù)庫的好處是一目了然,存儲也方便,但關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)檢索就沒有想象中的那么強大了。關(guān)系型數(shù)據(jù)庫只能進行一些簡單的字符匹配或模糊查詢,一旦涉及到復(fù)雜查詢就無能為力了。

而這時搜索中間件就出現(xiàn)了,比如ES——ElasticSearch,它就是嵌入了分詞的功能,根據(jù)某種算法實現(xiàn)完整語句的拆分,使得搜索能力相比傳統(tǒng)關(guān)系型數(shù)據(jù)庫大大增強。

但同樣的是,ES的搜索能力依然有限,它們只能依靠純粹的字符匹配進行檢索;比如說讓你去圖書館找本書,不懂的人只能按照書名去找,而懂的人就可以找到類似的。

而且面對現(xiàn)實世界中復(fù)雜的各種關(guān)系,簡單的字符匹配顯然無法滿足我們的需求;因此,一種基于語義查詢的方式就出現(xiàn)了。

從檢索增強——RAG看檢索技術(shù)的發(fā)展-AI.x社區(qū)

什么是語義查詢?

比如說,我說幫我搜索一下孫悟空;這時傳統(tǒng)的搜索方式只能搜索到與孫悟空三個字相關(guān)的內(nèi)容;而與齊天大圣,猴哥,弼馬溫相關(guān)的數(shù)據(jù)就無法準(zhǔn)確查詢了。

而有了語義分析的功能之后,就知道孫悟空,齊天大圣,弼馬溫,大師兄等等是一個人,這時就可以把與此相關(guān)的內(nèi)容全部查詢出來,而這就是RAG需要干的事情。

這也是為什么說,大模型知識庫的重點是不是模型,也不是知識庫,而是數(shù)據(jù)的精確檢索。大模型知識庫的好壞,是由檢索能力所決定的,而不是由大模型決定的。 

這也是在昨天關(guān)于RAG技術(shù)的文章中所說的,怎么提升數(shù)據(jù)的召回質(zhì)量,召回數(shù)據(jù)的質(zhì)量越高,大模型的生成效果就越好。

嵌入模型的語義分析能力越強,轉(zhuǎn)化的向量數(shù)據(jù)效果越好,最終檢索到的數(shù)據(jù)質(zhì)量也就越高。


本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/t4vj028hHI2_lRZ65d9SfQ??



?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产高清视频在线观看 | 久草久草久草 | 国产一级片精品 | 精品久久久久香蕉网 | 久久久久久久网 | 精品乱码一区二区 | 久久精品国内 | 一二三区在线 | 色欧美片视频在线观看 | 91av久久久| 拍真实国产伦偷精品 | 亚洲热在线视频 | 日韩欧美精品一区 | 国产亚洲精品久久19p | 国产一区二区三区在线观看免费 | 日韩精品在线播放 | 精品1区 | 99久久婷婷国产综合精品首页 | 伊人久久免费视频 | 欧美中文字幕 | 国产精品久久久久久福利一牛影视 | 99精品久久久久久 | 午夜视频一区二区三区 | 中文字幕在线观看精品 | 91精品一区二区三区久久久久久 | av在线免费播放 | 午夜看片 | 色.com| 欧美二区在线 | 九色 在线| 国产做a爱片久久毛片 | 日日摸日日碰夜夜爽亚洲精品蜜乳 | 天天操夜夜操 | 三级欧美 | 国产传媒视频在线观看 | 91精品国模一区二区三区 | 日本福利在线 | 亚洲精品久久久久久久久久久久久 | 久久高清 | 日日干日日操 | 欧美aⅴ片|