成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用結構化和非結構化數據增強大型語言模型(LLM) 原創

發布于 2024-11-11 11:24
瀏覽
0收藏

01、概述

在過去的幾年中,大型語言模型(LLMs)引領了人工智能領域的革命。然而,盡管這些模型在理解和生成語言方面表現出色,它們仍然存在一些固有的局限性。主要包括知識截止日期帶來的信息更新滯后、生成貌似正確但實際上錯誤的信息,以及知識庫中可能存在的不準確信息和偏見。這些問題使得我們必須尋找解決方案,以提升LLMs的性能,特別是在特定領域的應用上。

02、LLM的微調(Fine-Tuning)

為了應對上述問題,微調LLM是一種有效的方法。這一過程通過監督學習來補充模型的內部知識,具體做法是引入額外的問答對。例如,一些開源工具如WizardLM可以利用給定的訓練數據集生成這些問答對。

使用結構化和非結構化數據增強大型語言模型(LLM)-AI.x社區

然而,定期微調并非易事,尤其是在信息快速變化的情況下。微調適用的場景通常是數據不頻繁變化的領域。此外,微調并不能完全消除幻覺(hallucination)的問題。模型無法明確引用信息的來源,這使得我們難以判斷信息是來源于預訓練數據還是微調數據。微調還需要設置訓練管道,并使用具備足夠處理能力的GPU。此外,微調并沒有任何訪問控制機制,所有更新的知識對所有用戶開放。

03、檢索增強生成(RAG)

檢索增強生成(RAG)為保持知識更新和減少幻覺提供了一種解決方案。RAG允許用戶構建自己的特定知識庫,并將LLM的功能限制在該知識庫內。這對希望僅訪問非公開內部數據源的信息組織特別有利,尤其是面對快速變化的數據時。此外,RAG還為組織提供了一個安全、隔離的環境,以便在個性化對話代理中利用其獨特的數據。

使用結構化和非結構化數據增強大型語言模型(LLM)-AI.x社區

RAG的工作流程可以概括為:用戶的提示被轉換為嵌入(embeddings),與向量數據庫匹配,并結合檢索到的數據通過LLM生成響應。這種方式使得信息檢索更為高效,確保語義相似的信息被相鄰存儲,快速響應用戶的查詢。

向量數據庫的作用

外部數據存儲在向量數據庫中,這是一種將信息以嵌入形式存儲的高維系統。這種數據庫通過語義相似性來索引和存儲項,使得信息檢索速度更快。外部數據首先使用嵌入模型(如OpenAI的Ada2、Cohere的co等)轉換為數值表示(嵌入)。然后,將這些嵌入分成適合LLM上下文窗口的適當大小的塊。定期將新數據集成到向量數據庫中也相對簡單,開源向量數據庫如Weaviate、Milvus、Elasticsearch和Faiss都可以用于此目的。

使用結構化和非結構化數據增強大型語言模型(LLM)-AI.x社區

對于每個查詢或提示,嵌入模型首先將其轉換為嵌入,然后利用這些嵌入從向量數據庫中查找相關信息。隨后,將組合后的提示和信息嵌入傳遞給大型語言模型,生成最終的響應。

結構化數據在RAG中的整合

除了網頁、PDF、PowerPoint演示文稿和文章等非結構化數據源,結構化數據(如知識圖譜)也可以作為重要的信息來源。使用知識圖譜-檢索增強生成(KG-RAG)能夠為提示提供更強大和一致的信息。得益于標準化的詞匯和自定義概念,知識圖譜有助于緩解基于向量數據庫的RAG中因語言差異造成的低質量結果的問題。

使用結構化和非結構化數據增強大型語言模型(LLM)-AI.x社區

04、結構化與非結構化數據的結合

知識圖譜的另一個優點是能夠同時容納結構化和非結構化信息。舉個例子,考慮一個公司利用知識圖譜來管理和導航客戶關系及銷售流程的場景。知識圖譜可能包含銷售人員、客戶、交易和產品等節點。它們之間的關系可能包括“管理”、“購買”或“談判”。結構化數據可能涉及銷售數據、客戶聯系信息和產品規格,而非結構化數據則可能是銷售通話記錄、電子郵件交流和會議紀要。這種設置將使得聊天機器人能夠回答諸如“與客戶X的交易處于談判階段的有哪些?”或“展示關于產品Y的最近溝通記錄”等查詢。

使用結構化和非結構化數據增強大型語言模型(LLM)-AI.x社區

開源框架如LangChain和LlamaIndex可以促進同時使用非結構化和結構化數據的RAG應用程序的開發。LlamaIndex能夠自動化構建知識圖譜過程中的主要步驟,如實體提取、關系提取和圖譜填充。流行的圖數據庫Neo4j可以用于存儲和檢索RAG應用中的結構化和非結構化信息。OpenAI與LangChain和Neo4j的功能可以用于從非結構化數據中構建知識圖譜。

使用結構化和非結構化數據增強大型語言模型(LLM)-AI.x社區

05、結論

隨著技術的不斷發展,增強大型語言模型的能力變得愈加重要。通過整合結構化和非結構化數據,我們不僅可以提高LLM的知識更新能力,還能顯著改善其在特定領域的表現。檢索增強生成(RAG)和知識圖譜的結合為組織提供了一個靈活、安全的環境,以更有效地利用其獨特數據。這種方法的成功實施,將為未來的人工智能應用開辟新的可能性,讓我們對LLM的前景充滿期待。

?

本文轉載自公眾號Halo咯咯  作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/1jQFYAoxwwh9NhCvSLrfpQ??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线免费看黄 | 欧美成年人网站 | 波多野结衣一区二区三区在线观看 | 欧美日韩高清一区 | 国产欧美精品一区二区 | 国产线视频精品免费观看视频 | 日本午夜网站 | 综合网伊人| 91视视频在线观看入口直接观看 | 嫩草视频入口 | 久久蜜桃资源一区二区老牛 | 国产精品永久 | 精品伊人 | 羞羞视频在线观免费观看 | 毛片一级网站 | 成人高潮片免费视频欧美 | 色婷婷精品| www.日本在线观看 | 夜夜草 | 国产蜜臀 | 亚洲高清视频在线观看 | 青青草视频网 | 国产日韩欧美 | 精品国产第一区二区三区 | 欧美精品中文字幕久久二区 | 亚洲色图在线观看 | 国产精品乱码一区二区三区 | 四虎免费视频 | 国产在线视频一区二区董小宛性色 | 国产欧美精品一区二区三区 | 国产成人小视频 | 黄免费在线 | 久久久久久国产 | 无码日韩精品一区二区免费 | 亚洲精品美女在线观看 | 在线区| 午夜影院网站 | 成人免费一区二区三区视频网站 | 日干夜干 | 欧美啊v在线观看 | 成人午夜免费福利视频 |