借助于 Doc2X 解決 RAG 架構設計的關鍵技術 原創
RAG (檢索增強生成)是企業 AI 大模型應用落地的主要應用形態之一,特別是在智能問答、報告生成、內容審核、Text2SQL、流程自動化和 AI 編程等領域大規模應用和落地 RAG 架構。
圖片
從技術本質來分析,RAG 架構設計是由兩部分構成:數據工程和信息抽取。其中數據工程是最重要的部分,它的目的是把多模態的數據轉化為結構化的知識。
數據工程在優化 RAG 效果過程中至關重要,數據工程質量直接決定了最終的檢索和生成效果。無論采用何種文檔切分方法,其基礎都離不開高質量的解析結果。
我們首先來分析下企業中落地常用的文檔切分方法:固定大小分塊法和滑動窗口分塊法。
第一、固定大小分塊法
這種方法是將文檔切割成大小預先設定好的文本塊,比如:每100個字符或每500個詞匯單元作為一個文本塊。
- 優點:實現起來比較簡單,控制文本塊的大小也很容易。
- 缺點:可能會將有聯系的句子或段落強行切斷,從而破壞了文本的語義完整性。比如,一個句子的前半部分在一個文本塊中,而后半部分在另一個文本塊中,這會造成信息的碎片化。
第二、采用滑動窗口分塊法
在固定大小分塊的基礎上引入了重疊(Overlap)機制。比如,設定文本塊大小為100個字符,重疊部分為20個字符,那么每個文本塊會與前一個文本塊重疊20個字符。
- 優點:在一定程度上緩解了固定大小分塊帶來的語義完整性問題,重疊部分有助于提供上下文信息。
- 缺點:仍然可能在不恰當的地方切斷文本,特別是對于結構復雜的文檔,效果并不理想。
盡管上述文檔分割方法各有其巧妙之處,但它們共同面臨一個根本性的挑戰:如果“原材料”:即原始文檔的解析結果不準確、不完整或存在格式錯誤,那么任何后續的分割方法,無論多么先進,都會受到很大限制,甚至可能產生錯誤。
傳統解析方法之痛:僅能提取文本信息,而丟失了結構信息
在處理 PDF、PPT 等格式復雜的文檔時,許多常用的解析技術僅能提取純文本信息,這會導致文檔原有的排版、公式、圖表和表格等重要結構信息的丟失。這種僅包含純文本的解析結果,對后續的知識整理、檢索和問答功能都產生了不小的影響。
想象一下,如果一份 PDF 文檔在解析后,公式變成了亂碼,表格數據錯位,或者文本內容識別錯誤,那么無論是固定大小分塊還是滑動窗口分塊,都會把錯誤的、不完整的文本內容分割到不同的文本塊中,導致這些文本塊本身就是“無效信息”。
因此 RAG 數據工程架構最重要的是把數據轉化成正確的知識,包括文本語義和結構語義。
Doc2X 是一款專為開發者設計的強大文檔解析產品,致力于解決這一核心痛點。
下文詳細剖析之。
1、Doc2X 架構設計特性剖析
第一、Doc2X 是一款專為開發者設計的強大文檔解析 RAG 產品
Doc2X 致力于解決 RAG 架構設中數據工程的核心痛點。它提供的 API 服務,能夠將 PDF、圖片等多種格式的文檔精準轉換為 Markdown、LaTeX、HTML、Word 等結構化或半結構化格式。
這種保留格式的轉換,特別是轉換為 Markdown 格式,為后續的知識庫構建和內容處理提供了更大的操作空間,使得文檔內容更易于機器理解和利用。
第二、Doc2X 架構特性剖析
1.無與倫比的解析精度
相較于傳統的開源方案和其他商業化 PDF 提取工具,Doc2X 在復雜文檔,尤其是包含大量公式、圖表、表格的場景下,展現出卓越的解析精度,確保準確性是后續一切智能應用的基礎。
2.公式識別效果領先
針對理工科文檔、學術論文、教育試題等富含數學公式的場景,Doc2X 進行了深度優化。無論是印刷體還是部分手寫體公式,都能實現高精度的識別與結構化轉換(比如 LaTeX),遠超同類方案,且轉換成 Word 公式能正確顯示,避免亂碼問題。
3.強大的功能特性
- 跨頁表格智能合并:通過參數控制,自動識別并合并跨越頁面邊界的表格,確保數據完整性。
- 多種導出格式支持:滿足不同應用場景對文檔格式的需求,包括 Markdown、LaTeX、HTML、Word 等。
- 靈活的 API 接入:提供清晰、易用的 API 接口,方便開發者快速集成到現有工作流或全新應用中。
- 處理速度快:五百頁的 PDF 通過 Doc2X 解析僅需 1 分鐘。
- 圖片內容提取:解析的 Markdown 中能夠得到圖片對應的 Caption 以及圖片里面的文字內容,方便大模型理解帶有文字的圖片。
2、Doc2X 如何使用?
Doc2X 官網提供了兩種使用方式:API 方式和頁面方式。
第一、Doc2X API 使用方式
Doc2X 提供靈活的 API 接口,方便開發者集成到現有 AI 應用中。其基本使用流程包括:
1.獲取 API Key
首先需要在 Doc2X 開放平臺 open.noedgeai.com 獲取 API Key。
2.文件上傳
直接上傳: 通過 ??/api/v2/parse/pdf?
? 接口直接上傳 PDF 二進制文件(最大 300MB)。
文件預上傳: 通過 ??/api/v2/parse/preupload?
? 接口獲取一個臨時的上傳 URL (阿里云 OSS),然后使用 HTTP PUT 方法將文件上傳到該 URL(最大 1GB)。此方法上傳速度更快,尤其適合大文件。
3.查詢解析狀態
根據文件上傳后返回的 uid ,使用 ??/api/v2/parse/status?
? 接口輪詢解析進度和結果。建議輪詢頻率為 1~3 秒一次。解析成功后,將獲得 Markdown、圖片 URL 等結構化數據。
4.導出文件
如果需要將解析結果導出為特定格式(比如:Markdown、LaTeX、Word),可以調用??/api/v2/convert/parse?
?? 接口觸發導出任務,再通過 ??/api/v2/convert/parse/result?
? 接口輪詢獲取導出文件的下載 URL。
第二、Doc2X 網頁版使用方式
可以通過 Doc2X 官網直接使用:???https://doc2x.noedgeai.com/??
Doc2X 提供了直觀易用的官網在線服務,進入主界面后,點擊界面中央的“點擊或拖拽到此處上傳文件”按鈕。
文件上傳成功后,Doc2X 的智能解析引擎會立即開始工作。文檔解析完成,就可以在網頁上直接查看解析后的內容,并與原始文件進行逐頁對比。
本文轉載自??玄姐聊AGI?? 作者:玄姐
