成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

再談大模型檢索增強生成——RAG 原創(chuàng)

發(fā)布于 2024-11-19 12:45
瀏覽
0收藏

“ RAG的核心部件有大模型,embedding模型和檢索系統(tǒng);而RAG的重點和難點都在于檢索系統(tǒng)”

RAG檢索增強生成——也是很多人理解的本地知識庫,但RAG和本地知識庫還是有很大區(qū)別的;但這不是今天討論的重點,重點是為什么會有RAG技術,以及RAG技術解決了哪些問題? 

大模型存在的幾個主要問題,知識的局限性 實時性和幻覺問題 以及隱私數(shù)據(jù)

RAG并不能完全解決幻覺問題,但可以減少幻覺的發(fā)生

in context learning 語境學習/上下文學習

RAG與大模型

想知道為什么會有RAG技術,首先要知道大模型的幾個缺陷。

大模型主要有以下幾個問題:

  • 知識的局限性
  • 知識的實時性
  • 大模型的幻覺

目前的大模型都是基于預訓練模式,也就是說設計出來的模型需要經(jīng)過大量數(shù)據(jù)訓練之后才能夠使用;但預訓練有一個很嚴重的缺點就是,訓練的數(shù)據(jù)都是之前,大模型無法獲取訓練數(shù)據(jù)之后的信息。

比如說,昨天訓練了一個新的模型,那這個模型就不可能知道今天發(fā)生了哪些事情;所以模型的知識是截止到其訓練數(shù)據(jù)收集的那一天。而這就是大模型知識的實時性問題。

其次是知識的局限性,大模型預訓練的數(shù)據(jù)基本上來自于互聯(lián)網(wǎng)中;但互聯(lián)網(wǎng)中只有很小一部分數(shù)據(jù)是公開的,大部分數(shù)據(jù)都是不公開的;因此,訓練模型就很難獲取到這些不公開的數(shù)據(jù),因此大模型的知識是有局限的。

這也是為什么,在問到大模型一些比較專業(yè)的問題時,大模型只能泛泛而談,而無法給出一個詳細的答案;原因就是因為它自己也不知道。

最后就是大模型的幻覺問題,幻覺問題其實也可以理解為一種特殊的知識局限性;那就是大模型在遇到一些不懂的問題時,它會根據(jù)自己的經(jīng)驗,然后一本正經(jīng)的胡說八道。

再談大模型檢索增強生成——RAG-AI.x社區(qū)

這就是大模型的幻覺問題,產(chǎn)生幻覺問題的原因有很多,知識不足只是其中的一個原因而且也不是本質上的原因。眾所周知,大模型的本質是一種數(shù)學模型,其是用概率和高維向量之間的運算來得到具體的結果。

但不論是概率還是向量之間的運算,都無法保證絕對的正確性,因此這就導致大模型會出現(xiàn)一本正經(jīng)的胡說八道的現(xiàn)象,也就是幻覺的問題。

還有一個問題就是,數(shù)據(jù)的隱私性問題,比如說公司內部的經(jīng)營數(shù)據(jù),財務數(shù)據(jù)和科研數(shù)據(jù)等;這都屬于公司的絕密信息,因此一般不能直接用來進行大模型的訓練;但有時候又需要大模型使用這些隱私數(shù)據(jù)。

所以,為了解決以上問題業(yè)內就提出了一種補償措施,那就是RAG技術。RAG技術主要包括兩個方面,檢索與生成;所謂的檢索就是在向大模型提問之前,先從外部資料中檢索到相關的資料,然后一起帶給大模型;大模型就可以根據(jù)這些資料進行更加精準的回答。

再談大模型檢索增強生成——RAG-AI.x社區(qū)

而大模型使用RAG技術的原理就是In Context Learning(語義學習/上下文學習)技術;本質上來說就是一種提示詞技術,通過RAG技術從外部資料中檢索到數(shù)據(jù)之后,把這些數(shù)據(jù)當做上下文拼接到提示詞中,然后大模型就可以理解這些提示詞,然后做出正確的回答。

不過RAG技術雖然能夠解決大模型以上的幾個問題,但并不是完全解決;主要依賴于以下幾個方面:

  • embedding模型
  • 外部資料的質量問題
  • 檢索的準確性問題
  • 大模型的質量問題

后面兩個應該很好理解,主要就是embedding模型,所謂的embedding模型就是,RAG的檢索并不是傳統(tǒng)的數(shù)據(jù)庫方式的字符匹配,而是基于向量模型的語義匹配的方式。

因此,就需要一種方式把資料從文本/視頻/語音等多種格式的數(shù)據(jù)轉化為向量模式,而這個就是embedding模型的作用;而embedding模型本質上也是一個大模型。

再談大模型檢索增強生成——RAG-AI.x社區(qū)

還有就是,大模型并沒有解決幻覺問題,只是減少了幻覺的發(fā)生;以目前的技術來看,大模型幻覺問題還無法徹底解決,只能盡量地減少。

所以,一個好的RAG系統(tǒng),不但需要一個好的大模型和embedding模型,更重要的是要有一個強大的檢索系統(tǒng);能夠更加高效和準確地檢索到準確的數(shù)據(jù)。

否則,就像你拿著一個錯誤的復習資料,即使你成績再好,你又能考多少分。


本文轉載自公眾號AI探索時代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/UBcbUw22aVcjyifqGYEAjw??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲欧美一区二区三区视频 | 91精品国产91久久久久久最新 | 久久国产精品视频免费看 | 成人国内精品久久久久一区 | 夜夜草 | 国产伦一区二区三区 | 97超碰在线免费 | 日本视频中文字幕 | 国产在线精品一区二区三区 | 国产做a爱片久久毛片 | 男女羞羞网站 | 国产在线观看 | 久久精品亚洲成在人线av网址 | 国产乱码精品一区二区三区五月婷 | 欧美天天视频 | 99久久电影 | 91av在线免费播放 | 精品国产一区二区国模嫣然 | 99久久99| 99re视频在线免费观看 | 国产精品免费一区二区 | 久久精品国产一区二区 | 亚洲欧美日韩精品久久亚洲区 | 99久久免费精品 | 国产精品不卡一区二区三区 | 国产最新视频在线 | 一区二区欧美在线 | 在线播放中文 | 成人一级毛片 | 久久精品久久久久久 | 国产一区二区三区久久久久久久久 | 久一精品 | 亚洲国产一区二区三区在线观看 | 中文字幕1区2区3区 亚洲国产成人精品女人久久久 | 日韩欧美一区二区三区 | 天天操天天玩 | 亚洲国产精品一区二区三区 | 日韩电影免费在线观看中文字幕 | 人人看人人搞 | 国产美女在线观看 | 四虎永久免费黄色影片 |