成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<small id="ntviq"><em id="ntviq"><wbr id="ntviq"></wbr></em></small>

<small id="ntviq"><delect id="ntviq"></delect></small>

<ins id="ntviq"></ins><sub id="ntviq"><tr id="ntviq"><td id="ntviq"></td></tr></sub>

<sub id="ntviq"></sub>

<form id="ntviq"><legend id="ntviq"></legend></form>

<kbd id="ntviq"><tt id="ntviq"></tt></kbd>

<u id="ntviq"></u>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

從OCR瓶頸到結構化理解來有效提升RAG的效果原創

51CTO內容精選

發布于 2025-6-27 08:11

瀏覽

0收藏

OCR錯誤在RAG流程中級聯，將嚴重影響人工智能系統的性能。擁有2.56億個參數的SmolDocling能夠實現對文檔的整體化處理，進而生成結構化輸出，有效提升了RAG的效果。

當人們探討如何讓人工智能系統更好地從文檔中查找和使用信息時，通常關注的是令人矚目的算法和前沿的大型語言模型。但問題是：如果文本提取的質量很差，那么后續的努力都將付諸東流。本文探討OCR質量如何影響檢索增強生成（RAG）系統，尤其是在處理掃描文檔和PDF文件的常見場景時。

通過在RAG流程中探索光學字符識別（OCR）錯誤的級聯效應，并使用SmolDocling（一種端到端處理文檔的超緊湊視覺語言模型）提出了一種現代解決方案。OHRBench研究報告（Zhang et al., 2024）提供了令人信服的證據，表明即使是現代OCR解決方案也難以處理現實世界的文檔。展示了只有2.56億個參數的SmolDocling（Nassar等人，2025年）如何通過整體理解文檔而不是逐個字符處理，以輸出結構化數據，從而顯著提升下游RAG性能。

引言

“垃圾進，垃圾出”的原則不僅僅是一個口號——它是基于文檔的RAG系統的現實。當人工智能社區對最新的嵌入模型和檢索算法充滿興趣，許多人忽視了一個基本的瓶頸：從現實世界的文檔中提取文本的質量。

最近進行的一些研究開始揭示這個問題。Zhang等人（2024）引入了OHRBench，表明當前的OCR解決方案都無法勝任為RAG系統構建高質量知識庫的任務。這是對OCR技術應用現狀的一個相當糟糕的評價。

錯綜復雜的OCR現狀

1.好消息與壞消息

好消息是，現代OCR技術已經取得了長足進步。谷歌的Tesseract現在已發展到4.0+版本，使用LSTM神經網絡，在干凈的印刷的文本上實現令人印象深刻的準確率（Patel等人，2020年）。而壞消息是，出現了一些問題：

根據最近進行的基準研究，歷史文檔中20%或更高的OCR錯誤率仍然很常見（Bazzo等人，2020）。Rigaud等人（2021）記錄了數字圖書館和專業文檔類型中的類似問題。

Hamdi等人（2022）的一項基準研究對Tesseract、Amazon Textract和Google Document AI進行了比較，發現Document AI提供了最佳結果，基于服務器的處理器（Textract and Document AI）的性能明顯優于Tesseract，尤其是在背景嘈雜的文檔上。但即使是表現最好的OCR系統，也難以應對復雜的布局和歷史文件。

2.為什么OCR系統面臨多種困難和挑戰

OCR系統面臨的挑戰不僅僅是老舊的或褪色的文檔（這些文件會有問題）。現代OCR面臨幾個持續存在的問題：

（1）復雜的布局：多欄格式、表格和混合文本/圖像內容使大多數OCR系統感到困惑。

（2）質量參差不齊：即使是來自同一來源的文檔，掃描質量也可能大不相同。

（3）語言和字體多樣性：非拉丁文字和不常見的字體會顯著降低性能。

（4）現實世界的干擾：咖啡漬、手寫注釋、郵票——這些讓文件變得真實的事物也讓它們難以閱讀。

正如OHRBench論文（Zhang et al., 2024）所述，語義噪聲和格式噪聲這兩種主要的OCR噪聲類型，被認為是影響下游RAG性能的主要因素。

OCR錯誤如何通過RAG級聯

1.多米諾骨牌效應

當OCR錯誤進入RAG流程時，會發生以下情況——這并不美妙：

（1）分塊混亂：復雜的語義分塊算法試圖在文本中找到句子邊界，例如“出現嚴重癥狀的患者（Thepatient presentedwith severesymptoms）”，然后要么創建無意義的小塊，或者要么大量的文本。

（2）嵌入混淆：當嵌入模型看到“diabetus”這種錯誤拼寫而不是“diabetes”（糖尿?。r，它可能會將該分塊放在完全不同的語義空間中。如果將這種情況出現在數千個文檔中，其向量空間將變得混亂不堪。

（3）檢索失?。河脩羲阉鳌疤悄虿≈委煟╠iabetes treatmen）”，但是相關的數據塊被索引在“diabetus”或“diabetes”下——找不到匹配項。

（4）產生幻覺：由于上下文質量不佳或缺失，LLM開始編造內容來填補空白。

2.對RAG性能的實際影響

OHRBench的研究提供了發人深省的數據。他們發現OCR噪聲對RAG系統有顯著影響，在所有測試配置中均出現性能損。這不僅僅是幾個百分點的問題——而是系統變得無法有效地用于關鍵應用程序。

Bazzo等人（2020年）在詳細調查中發現，雖然OCR錯誤在平均水平上可能看似影響不大，但單一查詢可能會受到很大影響。調查表明，從5%的錯誤率開始，就會注意到顯著的影響，并且報告了在存在錯誤的情況下索引術語數量的顯著增加——本質上，OCR錯誤會創建虛假的詞匯表，進而導致索引規模膨脹。

建議：采用SmolDocling的現代解決方案

1.超越傳統的OCR

在經歷了傳統OCR流程的各種挫折之后，采用了一種完全不同的方法，即使用SmolDocling，這是IBM Research和HuggingFace于2025年3月發布的一款超緊湊視覺語言模型（Nassar等人，2025年）。

這就是一切得以改變的原因：與傳統的OCR→后處理→分塊→嵌入流程不同。SmolDocling將文檔圖像直接處理成結構化的輸出。它只有2.56億個參數，其規模足夠小，可以在消費級GPU上運行，同時提供與大27倍的模型相媲美的結果。

2.SmolDocling架構

該模型使用了一個巧妙的架構，它結合了：

直接處理文檔圖像的視覺編碼器（具有9300萬個參數的SigLIP）
生成結構化輸出的語言模型（具有1.35億個參數的SmolLM-2變體）
有效壓縮視覺特征的積極像素洗牌策略

其特別之處在于，SmolDocling不只是提取文本——它從整體上理解文檔結構。表保持表格的形式，代碼塊保持縮進，公式得以保留，元素之間的空間關系也被捕獲。

3.DocTags：實際有效的結構化輸出

smoldoling的關鍵創新之一是DocTags，這是一種專門為文檔表示而設計的標記格式。而不是轉儲非結構化文本，可以得到結構化的輸出與精確的位置信息：

1 <picture><loc_77><loc_45><loc_423><loc_135>
2 <other>
3 <caption><loc_58><loc_150><loc_441><loc_177>
4 Figure 1: SmolDocling/SmolVLM architecture. SmolDocling converts images of document pages to DocTags sequences.
5 </caption> 
6 </picture> 
7 <text><loc_58><loc_191><loc_441><loc_211>In this work, we outline how we close the gaps left by publicly available datasets and establish a training approach to achieve end-to-end, full-featured document conversion through a vision-language model.
8 </text> 
9 <unordered_list> 
10 <list_item><loc_80><loc_218><loc_441><loc_259>· SmolDocling: An ultra-compact VLM for end-to-end document conversion
11 </list_item> 
12 <list_item><loc_80><loc_263><loc_441><loc_297>· We augment existing document pre-training datasets with additional feature annotations
13 </list_item> 
14 </unordered_list> 
15 <table> 
16 <table_row> 
17 <table_cell><loc_50><loc_320><loc_150><loc_340>Test Name</table_cell> 
18 <table_cell><loc_151><loc_320><loc_250><loc_340>Result</table_cell> 
19 <table_cell><loc_251><loc_320><loc_350><loc_340>Normal Range</table_cell> 
20 </table_row> 
21 <table_row> 
22 <table_cell><loc_50><loc_341><loc_150><loc_361>Glucose</table_cell> 
23 <table_cell><loc_151><loc_341><loc_250><loc_361>126 mg/dL</table_cell> 
24 <table_cell><loc_251><loc_341><loc_350><loc_361>70-100 mg/dL</table_cell> 
25 </table_row> 
26 </table>

請注意每個元素如何包含指定精確邊界框坐標（x1，y1，x2，y2）的<loc_X>標簽。這意味著：

RAG系統確切地知道每條信息出現在頁面上的位置（自動圖像提取非常容易）。
表格以適當的單元格邊界維護其結構。
列表、標題和不同的文本類型被清楚地區分開來。
復雜的布局得以保留，而不是將其扁平化為文本流。

這種具有空間信息的結構化格式意味著，RAG系統可以根據實際的文檔結構和位置而不是任意的字符計數來智能地分塊。這種差異是巨大的——傳統的OCR可能會產生格式丟失的混亂文本，而SmolDocling則保持了使文檔有意義的語義結構和空間關系。

4.實際表現

SmolDocling論文（Nassar等人，2025）中的數據講述了一個引人注目的故事。以下可以直觀了解一下這個擁有2.56億參數的模型與更大規模的模型相比的表現：

從OCR瓶頸到結構化理解來有效提升RAG的效果-AI.x社區

圖1 文本識別（OCR）指標

從OCR瓶頸到結構化理解來有效提升RAG的效果-AI.x社區

圖2 布局理解（mAP）

從OCR瓶頸到結構化理解來有效提升RAG的效果-AI.x社區

圖3模型特征

要點：SmolDocling的精度比27倍于其大小的LLM更高，同時使用的內存和處理頁面的時間減少了28倍，僅需0.35秒（在A100 GPU上每頁平均0.35秒）。對于RAG應用程序來說，這意味著可以在性能適中的硬件上更快、更準確地處理文檔，同時還能保留文檔結構，使智能分塊成為可能。

5.在RAG流程中實施SmolDocling

許多團隊忽略了一個關鍵見解：數據準備的質量決定了RAG流程后續的一切。SmolDocling不僅僅是一個OCR工具——它從根本上改變了處理文檔的方式。

為什么結構化提取會改變一切

傳統OCR提供的是一面文字墻。而SmolDocling提供是文檔的語義地圖。這種差異貫穿整個流程：

（1）智能分塊成為可能：通過DocTags提供元素類型和邊界，可以基于實際文檔結構進行分塊。表作為一個語義單元保持在一起。代碼塊保持其完整性。多段落可以保持連貫。不再盲目地削減文字數量。

（2）上下文感知嵌入：當分塊具有結構時，嵌入將變得更有意義。包含帶有標題的表格的塊會創建與混雜在一起的相同文本不同的嵌入。語義關系得以保留，使檢索更加準確。

（3）分層索引：位置標簽（<loc_x1><loc_y1><loc_x2><loc_y2>）不僅僅是坐標——它們代表文檔層次結構。標頭、子標頭及其關聯內容保持它們之間的關系。這支持復雜的檢索策略，可以根據文檔結構確定優先級。

重要的準備過程

在實施SmolDocling時，需要考慮分層的數據準備：

文檔攝?。?/strong>以適當的分辨率處理文檔（144 DPI是最佳分辨率）。
結構化提取：讓SmolDocling創建DocTags表示。
語義分塊：解析DocTags以基于元素類型創建有意義的塊。
元數據充實：使用結構信息向每個塊添加充實的元數據。

向量生成：創建受益于保留結構的嵌入。

對RAG質量的實際影響

對RAG質量實際影響的差別是顯著的。在傳統流程中，搜索“季度收入數字”可能會返回碰巧包含這些單詞的隨機文本片段。使用SmolDocling準備的數據，將獲得包含這些數據的實際表格，其標題和周圍的上下文保持完整。

這不是理論上的——當從傳統的OCR轉換到保留結構的提取時，檢索精度提高了30%～50%。在數據準備上的適當投入會在RAG性能上獲得指數級的回報。

6.為什么這樣可以解決OCR問題

還記得討論的級聯錯誤嗎？以下介紹SmolDocling如何解決這些問題：

不會傳播OCR錯誤：由于它不是逐字符識別，而是從整體上理解文檔，因此不會發生許多傳統的OCR錯誤。
從一開始就了解結構：表格、列表和格式在初始提取中就得以保留，因此分塊策略有豐富的信息可供使用。
統一處理：一個模型就可以處理文本、表格、公式和代碼，無需將多個專用工具的輸出整合在一起。
為現代文檔而設施：雖然傳統OCR在處理復雜布局時遇到困難，但SmolDocling經過多種文檔類型的訓練，包括技術報告、專利和表格。

從傳統OCR到SmolDocling等視覺語言模型的轉變，代表了如何處理RAG文檔的根本變化?？梢詮囊婚_始就使用干凈、結構化的數據，而不是在事后與OCR錯誤作斗爭，并試圖重建文檔結構。

實施注意事項

1.何時使用SmolDocling而不是傳統OCR

實際上，雖然SmolDocling更具優勢，但它并不總是合適的工具：

在以下情況下使用SmolDocling：

正在處理各種文檔類型（報告、表格、技術文檔）。
文檔結構對用例很重要。
需要處理表格、公式或代碼塊。
可以使用GPU（即使是消費級的也可以）。
想要一個單一的解決方案，而不是使用多個工具。

在以下情況下堅持使用傳統OCR：

只需要來自簡單文檔的純文本。
處理的文檔量非常大，其中0.35秒/頁太慢了。
有特殊需求（如歷史手稿處理）。
受限于僅使用CPU的環境。

2.監控和質量保證

即使SmolDocling有所改進，仍然需要進行質量檢查：

（1）針對已知模式的驗證：如果處理發票，需要檢查是否提取了標準字段。

（2）交叉引用：對于關鍵數據，考慮同時使用SmolDocling和傳統OCR進行處理，然后進行比較。

（3）用戶反饋循環：建立用戶報告問題的機制。

結論：未來是多模態的

要點：將OCR作為單獨的預處理步驟處理的日子已經屈指可數了。像SmolDocling這樣的視覺語言模型展示了這樣的未來：文檔理解是整體進行的，而不是通過碎片化的流程。

對于當今構建RAG系統的組織來說，這既是機遇也是挑戰。其機遇是顯而易見的：更好的文檔理解可以提高RAG的性能。而面臨的挑戰是，現在正處于兩種方法都有一席之地的過渡時期。

在此給出的建議是，可以從嘗試使用SmolDocling處理最棘手的文檔（即傳統OCR始終失敗的文檔）開始，不僅要衡量字符準確性方面的改進，還要衡量端到端RAG性能的改進。當系統真正理解文檔結構，而不僅僅是提取字符時，可能會驚訝地發現系統性能得以顯著提升。

如今的研究進展迅速。Zhang等人（2024）在其文章中展示了當前OCR對RAG的影響有多大。Nassar等人（2025）隨后提出了 SmolDocling 作為可行的解決方案。而且，很可能未來還會有更出色的進展。

不過，用戶不要一味地等待完美。利用SmolDocling能夠有效處理90%文檔的RAG系統，要比在理論上能處理100%文檔但在面對現實復雜性時卻失敗的RAG系統要有價值得多。

最終，用戶并不關心開發人員面臨的技術難題。他們只希望從文檔中獲取準確的答案。而借助像SmolDocling這樣的方法，將會更接近于實現這一承諾。

參考文獻

Bazzo, G.T., Lorentz, G.A., Vargas, D.S., & Moreira, V.P. (2020). "Assessing the Impact of OCR Errors in Information Retrieval." In Advances in Information Retrieval. ECIR 2020. Lecture Notes in Computer Science, vol 12036. Springer, Cham.
Chen, K., et al. (2023). "LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking." Proceedings of the 31st ACM International Conference on Multimedia.
Hamdi, A., et al. (2022). "OCR with Tesseract, Amazon Textract, and Google Document AI: a benchmarking experiment." Journal of Computational Social Science, 5(1), 861-882.
Lewis, P., et al. (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." Advances in Neural Information Processing Systems, 33, 9459-9474.
Nassar, A., et al. (2025). "SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion." arXiv preprint arXiv:2503.11576.
Neudecker, C., et al. (2021). "A Survey of OCR Evaluation Tools and Metrics." Proceedings of the 6th International Workshop on Historical Document Imaging and Processing, 13-20.
Patel, D., et al. (2020). "Improving the Accuracy of Tesseract 4.0 OCR Engine Using Convolution-Based Preprocessing." Symmetry, 12(5), 715.
Rigaud, C., et al. (2021). "What Do We Expect from Comic Panel Text Detection and Recognition?" Multimedia Tools and Applications, 80(14), 22199-22225.
Shen, Z., et al. (2021). "LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis." Proceedings of the 16th International Conference on Document Analysis and Recognition (ICDAR).
Zhang, J., et al. (2024). "OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation." arXiv preprint arXiv:2412.02592.

原文標題：??From OCR Bottlenecks to Structured Understanding??，作者：Pier-Jean MALANDRINO

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽
人工智能
RAG
檢索增強生成

已于2025-6-27 08:14:40修改

贊

收藏

回復

分享

微博

QQ

微信

舉報
舉報

社區頭條

微信掃碼分享

刪除帖子
刪除取消

回復

相關推薦

場景圖知識增強多模態結構化表示能力

mb5f8eba9bdb0af ? 3228瀏覽 ? 0回復
檢索感知微調（RAFT），提升領域RAG效果的新方法

Syrupup ? 4676瀏覽 ? 0回復
深入探索個性化推薦新境界：AI通過語言理解你的喜好，效率提升131%

AI論文解讀 ? 3648瀏覽 ? 0回復
谷歌創新框架：從非結構化數據，實現多模態學習

Aceryt ? 2620瀏覽 ? 0回復
Self-Attention在時間序列預測中有效嗎？新Transformer架構效率效果雙提升

海因斯DK ? 5058瀏覽 ? 0回復
Agent實戰-JSON結構化智能

ermulong ? 2485瀏覽 ? 0回復
使用結構化和非結構化數據增強大型語言模型(LLM)

Halo咯咯 ? 2644瀏覽 ? 0回復
RAG增強之路：增強PDF解析并結構化技術路線方案及思路

大模型自然語言處理 ? 2811瀏覽 ? 0回復
HtmlRAG：利用 HTML 結構化信息增強 RAG 系統的知識檢索能力和準確性

Halo咯咯 ? 3869瀏覽 ? 0回復
RAG 應用效果不太理想？試試以下RAG優化策略大幅提升問答效果

AI博物院 ? 8823瀏覽 ? 0回復
10.1k高星 GitHub 庫：告別JSON錯誤：Outlines如何提升大模型的結構化輸出

凝固的雨_1 ? 4616瀏覽 ? 0回復
AGI前夜的思考：從o3到AGI，未來已來

PyTorch研習社 ? 3064瀏覽 ? 0回復
從RAG到RAG+：讓大模型更懂業務的權威指南

芝士AI吃魚 ? 2450瀏覽 ? 0回復
RAG從入門到精通系列：基礎RAG

PyTorch研習社 ? 3252瀏覽 ? 0回復
奇奇怪怪的研究：RAG 如何提升 ASR 效果的研究

芝士AI吃魚 ? 2566瀏覽 ? 0回復
辯論有助于從弱到強的泛化

AIRoobt ? 2200瀏覽 ? 0回復
為什么說JSON不一定是LLM結構化輸出的最佳選擇？

Baihai_IDP ? 2191瀏覽 ? 0回復
萬字解析非結構化文檔中的隱藏價值：多模態檢索增強生成（RAG）的前景

柏企閱文 ? 1628瀏覽 ? 0回復
關于人工智能應用場景中前期數據處理的業務場景和技術分析——包括結構化數據和非結構化數據

AI探索時代 ? 793瀏覽 ? 0回復

51CTO內容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

一文詳解Character AI：實用指南+ ChatGPT、Gemini對比分析 7h前發布
借助氛圍編程用Python編寫一個速讀應用程序，只需15分鐘 1天前發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復
Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復
本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復
AI Agents開源工具棧全解析~ 0回復
效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇： “遠超預期”：Midjourney在迪士尼和環球影業提起訴訟之際發布首款人工智能（AI）視頻模型

下一篇：內容工作流自動化工具n8n vs LangGraph：哪個更好？

社區精華內容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權所有未經許可請勿轉載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
成人免费xxxxx在线视频软件|久久精品久久久|亚洲国产精品久久久|天天色天天色|亚洲人成一区|欧美一级欧美三级在线观看

主站蜘蛛池模板：亚洲色图在线观看 | 国产亚洲一区二区在线观看 | 特级毛片爽www免费版 | 免费毛片网站 | 欧美激情精品久久久久 | 一级片在线观看 | 精品久久一区 | 国产精品久久久久久久久大全 | 二区中文字幕 | 91麻豆精品国产91久久久更新资源速度超快 | 激情欧美日韩一区二区 | 综合九九 | 国产成人jvid在线播放 | 国产高清在线精品一区二区三区 | 国产1区| 亚洲激情在线 | 9191av| 成人精品免费视频 | 国外成人免费视频 | 99精品在线 | 色爱区综合 | 美女久久 | 成人小视频在线观看 | 亚洲网站在线观看 | 亚洲欧洲精品一区 | 伊人天堂网 | 欧美视频日韩 | 嫩草91在线| 成人黄色在线 | 黄色片亚洲 | 在线观看www高清视频 | 精品国产一区二区三区久久影院 | 久久久久久精 | 欧美中文一区 | 视频在线一区二区 | 国产高清免费在线 | 五月天激情电影 | 99国产精品99久久久久久 | 羞羞色网站 | 日韩欧美一区二区三区四区 | 久久亚洲综合 |