成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步 原創(chuàng)

發(fā)布于 2025-2-10 09:24
瀏覽
0收藏

01、概述

在信息驅(qū)動(dòng)的時(shí)代,基于圖的RAG(Graph RAG)正迅速成為一種強(qiáng)大的工具,超越了傳統(tǒng)依賴向量存儲(chǔ)的RAG應(yīng)用。它不僅提供語(yǔ)義相似性檢索,更具備強(qiáng)大的推理能力。例如,向量存儲(chǔ)能輕松回答“XYZ公司去年的CFO是誰(shuí)?”這種基于顯式信息的問(wèn)題,但對(duì)于“XYZ公司哪兩位董事畢業(yè)于同一所學(xué)校?”這樣需要隱式推理的問(wèn)題,圖RAG更勝一籌。

但問(wèn)題在于,如何構(gòu)建圖數(shù)據(jù)庫(kù)以支持這種高級(jí)檢索?更進(jìn)一步,如何從復(fù)雜的年報(bào)中提取信息,為圖數(shù)據(jù)庫(kù)的構(gòu)建鋪平道路?

本文將重點(diǎn)探討年報(bào)信息的提取與轉(zhuǎn)化,尤其是如何將PDF轉(zhuǎn)化為Markdown這一工程關(guān)鍵環(huán)節(jié)。

02、PDF轉(zhuǎn)化為富文本:選擇正確的工具

PDF是信息存儲(chǔ)的常見(jiàn)格式,但年報(bào)中不僅有文本,還包括圖表、表格等關(guān)鍵信息。如何高效、準(zhǔn)確地將這些內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化的富文本,直接決定了后續(xù)數(shù)據(jù)處理和圖數(shù)據(jù)庫(kù)構(gòu)建的質(zhì)量。

常用PDF處理工具評(píng)測(cè)

1) PyPDF2
對(duì)于大多數(shù)Python程序員來(lái)說(shuō),PyPDF2可能是處理PDF的首選工具。它的主要優(yōu)勢(shì)是快速、輕量化。然而,它的缺點(diǎn)也很明顯:提取的內(nèi)容缺乏結(jié)構(gòu)性,沒(méi)有區(qū)分標(biāo)題、列表或表格,這使得后續(xù)處理變得復(fù)雜。

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

2) PyMuPDF4LLM
PyMuPDF4LLM是一個(gè)將PDF直接轉(zhuǎn)換為Markdown的工具,且保留了文本的結(jié)構(gòu)信息。Markdown格式的文本因其內(nèi)嵌的層次信息,被Langchain等框架廣泛支持。這種格式不僅方便分塊處理,還為數(shù)據(jù)存儲(chǔ)和檢索提供了更多維度的信息。

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

然而,PyMuPDF4LLM在處理表格時(shí)表現(xiàn)不佳,提取結(jié)果往往與原始表格大相徑庭。

3) Dockling
Dockling由IBM Deep Search團(tuán)隊(duì)開(kāi)發(fā),它在提取PDF內(nèi)容方面表現(xiàn)出色,尤其是在保留表格信息和文檔結(jié)構(gòu)方面。Dockling生成的Markdown包含占位符以標(biāo)記圖片,并且準(zhǔn)確保留了層級(jí)標(biāo)題和表格信息,這對(duì)創(chuàng)建塊結(jié)構(gòu)和圖數(shù)據(jù)庫(kù)非常有幫助。

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

4) Marker
Marker是另一個(gè)優(yōu)秀的Markdown提取工具,在處理表格和復(fù)雜文檔時(shí)與Dockling不相上下。但性能和速度稍遜一籌。

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

03、性能比較:四種工具的優(yōu)劣勢(shì)

為了更直觀地比較這些工具,我們選取了包含文本、表格和圖片的年報(bào)片段,并測(cè)試了它們?cè)诓煌?yè)數(shù)PDF上的處理速度。

測(cè)試結(jié)果

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

分析與選擇

在性能和提取質(zhì)量之間存在顯著權(quán)衡:

  • 如果速度是首要考慮因素,PyPDF2是最佳選擇,但需額外處理提取內(nèi)容的結(jié)構(gòu)化問(wèn)題。
  • 如果需要高質(zhì)量的表格和結(jié)構(gòu)信息,Dockling是最優(yōu)解,盡管其速度偏慢。

對(duì)于我們的年報(bào)處理項(xiàng)目,每份年報(bào)約300頁(yè),使用Dockling處理50份年報(bào)需耗時(shí)17小時(shí)。如果擴(kuò)展到S&P500企業(yè)過(guò)去30年的年報(bào)(假設(shè)每年一份),單線程處理將耗時(shí)208天。

04、如何解決性能瓶頸

并行化處理與云服務(wù)
為了應(yīng)對(duì)大規(guī)模文檔處理需求,我們開(kāi)發(fā)了一個(gè)云服務(wù),將PDF轉(zhuǎn)化工作分布到多個(gè)并行進(jìn)程中。

  • 并行處理:將年報(bào)分塊到多個(gè)處理節(jié)點(diǎn),利用云計(jì)算資源顯著提升效率。
  • 動(dòng)態(tài)擴(kuò)展:根據(jù)項(xiàng)目規(guī)模調(diào)整并行任務(wù)的數(shù)量,實(shí)現(xiàn)彈性擴(kuò)展。

這種方式不僅解決了單線程的速度限制,還為項(xiàng)目未來(lái)的擴(kuò)展提供了可行路徑。

05、最終解決方案:PDF到Markdown的轉(zhuǎn)化策略

結(jié)合以上測(cè)試結(jié)果與性能優(yōu)化方案,我們的最終工作流程如下:

  • 使用Dockling提取PDF內(nèi)容為Markdown,確保表格和結(jié)構(gòu)信息的完整性。
  • 將Markdown文件按邏輯分塊,為圖數(shù)據(jù)庫(kù)構(gòu)建提供更優(yōu)質(zhì)的數(shù)據(jù)源。
  • 通過(guò)并行化的云服務(wù)加速處理,滿足大規(guī)模數(shù)據(jù)處理需求。

06、結(jié)語(yǔ)

從PDF到Markdown的轉(zhuǎn)化是構(gòu)建圖RAG的第一步,而選擇合適的工具則是實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)提取的關(guān)鍵。盡管Dockling在速度上存在劣勢(shì),但其卓越的提取質(zhì)量使其成為優(yōu)選工具。通過(guò)并行處理,我們克服了性能瓶頸,為構(gòu)建更智能、更高效的RAG系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。

未來(lái),隨著技術(shù)的進(jìn)一步發(fā)展,PDF轉(zhuǎn)化工具的性能和準(zhǔn)確性有望進(jìn)一步提升。到那時(shí),Graph RAG的構(gòu)建過(guò)程將更加高效,為AI領(lǐng)域帶來(lái)更多創(chuàng)新應(yīng)用。


本文轉(zhuǎn)載自公眾號(hào)Halo咯咯    作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/YGdqMYnK-VENPvi5RLVsMg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 一区二区三区影院 | 久久福利 | 91久久精品一区二区二区 | 一区二区在线免费观看 | 99久热| 盗摄精品av一区二区三区 | 亚洲精品一区二区在线 | 日本精品视频在线 | 亚洲日韩中文字幕一区 | 亚洲精品久久久久久久久久吃药 | 免费成人高清在线视频 | 福利视频一区 | 国产欧美日韩精品一区二区三区 | 久久久国产一区二区三区四区小说 | 中文字幕第九页 | 羞羞视频一区二区 | 国产超碰人人爽人人做人人爱 | 色姑娘综合网 | 亚洲视频在线观看免费 | 国产日韩欧美一区二区 | 色啪网| 在线视频a | 99久久日韩精品免费热麻豆美女 | 尤物在线视频 | 99精品久久 | 91资源在线 | 草久网| 羞羞网站免费 | 在线国产小视频 | 久久久免费少妇高潮毛片 | 国产精品久久久久久一级毛片 | 6080亚洲精品一区二区 | 亚洲国产精品一区二区第一页 | 伊人av在线播放 | 干干干操操操 | 亚洲精品一 | 丁香色婷婷 | 男人的天堂亚洲 | 99热精品国产| 免费成人高清在线视频 | 国产一区2区 |