成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟開源MarkItDown:Office文檔輕松轉Markdown,讓大模型更懂Office

開發(fā) 前端
在 RAG(Retrieval-Augmented Generation)系統(tǒng)的構建中,MarkItDown 作為初始數(shù)據(jù)的轉換工具,已經為構建更智能的數(shù)據(jù)處理與生成系統(tǒng)提供了巨大的幫助。隨著功能的不斷完善,MarkItDown 將成為更多開發(fā)者實現(xiàn)文檔格式轉換的利器。

最近,Microsoft 的 MarkItDown 庫在 GitHub 上引起了廣泛關注,短短時間內就獲得了超過 20000 個星標。MarkItDown 是一個功能強大的 Python 庫,能夠將多種常見的文件格式(如 PDF、PowerPoint、Word、Excel、圖像、音頻和 HTML 等)轉換為 Markdown 格式,

圖片圖片

MarkItDown 的優(yōu)勢與特點

相較于市面上其他的文件轉換工具(比如 Unstructured、Marker),MarkItDown 在轉換效果方面表現(xiàn)出色。尤其在處理 Office 格式的文檔時,它能夠準確地保留文檔的核心內容和格式,并且以簡潔的 Markdown 語法呈現(xiàn),讓大模型更好的理解已有語料,這使得它在當前的大模型浪潮中展現(xiàn)出巨大的潛力和廣泛的關注。

下面,我們將展示如何通過 MarkItDown 將 Excel 文件轉換為 Markdown 格式的簡單示例。

首先,安裝 MarkItDown 庫:

pip install markitdown

然后,使用以下代碼進行轉換:

from markitdown import MarkItDown
# 初始化 MarkItDown 對象
markitdown = MarkItDown()
# 轉換 Excel 文件為 Markdown 格式
result = markitdown.convert("test.xlsx")
# 打印轉換后的 Markdown 內容
print(result.text_content)

這樣,我們就能夠輕松將 Excel 文檔轉換為 Markdown 格式。

不過,由于 MarkItDown 是 Python 工具包,直接在其他編程語言中使用并不十分方便。因此,筆者基于 MarkItDown 封裝了一個 REST API 服務,并增強支持PDF轉換成markdown,其他語言的開發(fā)者也可以通過這個服務輕松調用,實現(xiàn)跨語言使用。(PS: 感謝 Cursor 工具,使我這個 Python 門外漢也能根據(jù)自己的需求,輕松構建出符合要求的 AI 基礎設施。)

通過 REST API 使用 MarkItDown

  • 運行 Docker 容器

首先,你需要啟動 MarkItDown 的 Docker 服務:

docker run -p 8000:8000 pig4cloud/markitdown
  • 通過 REST API 調試

啟動服務后,你可以通過 curl 命令測試 API 接口,上傳 Word 文件進行轉換:

curl -X 'POST' \
 'http://localhost:8000/upload/' \
 -H 'Content-Type: multipart/form-data' \
 -F 'file=@test.docx'

 API 返回的結果是轉換后的 Markdown 格式文本:

{
"text": "\n## 核心技術棧升級\n\nSpring 官方已于 2023 年底宣布停止維護 JDK 8 和 Spring Boot 2 系列框架,業(yè)務系統(tǒng)仍使用已停止維護的 Spring Boot 2.x 和 JDK 8,存在大量安全漏洞(尤其近期高發(fā)),影響系統(tǒng)安全性與可擴展性。\n\n![](data:image/png;base64...)\n\n**優(yōu)化必要性**:\n\n 及時修復安全漏洞,避免業(yè)務數(shù)據(jù)泄露與惡意攻擊風險。\n\n 提高系統(tǒng)兼容性,適應未來技術生態(tài)與業(yè)務需求。\n\n**優(yōu)化方向:**\n\n 全面升級到 Spring Boot 3.x 和 JDK 17 LTS,采用最新技術棧,提升性能與安全性。\n\n 調研現(xiàn)有項目中間件的兼容性問題,評估升級改造成本并規(guī)劃實施路徑。\n\n 調用現(xiàn)有 DevOps 流水線,重構 JDK17 LTS 實現(xiàn)一鍵構建與自動化部署,提高開發(fā)效率。"
}

返回的 Markdown 格式文本可以直接嵌入到 Markdown 文檔中,或者通過其他工具進行 ETL 進一步處理。

進階使用:結合視覺模型提升轉換效果

MarkItDown 不僅僅支持傳統(tǒng)的文檔格式,還能與大模型進行集成,提升圖像和復雜文檔的解析能力。例如,借助視覺模型,MarkItDown 能夠處理復雜的圖像內容,將圖片中的信息提取并轉換為 Markdown 格式。

為了使用視覺模型,你可以通過如下命令啟動服務:

docker run -d \
 -p 8000:8000 \
 -e API_KEY=gitee_ai_key \
 -e MODEL=InternVL2_5-26B \
 -e BASE_URL=https://ai.gitee.com/v1 \
 pig4cloud/markitdown

Gitee AI 提供的 InternVL2_5-26B 視覺模型,來提升中文圖像和文檔內容的解析能力。當然你可以使用 qwen-vl 也可以根據(jù)需要使用本地的視覺模型,如 ollama run minicpm-v:8b,以滿足個性化的需求。

此外,還可以通過 Swagger 接口來調試 API,訪問地址為:http://0.0.0.0:9527/swagger-ui.html

圖片圖片

總結與展望

盡管 MarkItDown 已經在多個文件格式的轉換上取得了顯著進展,

  • 但目前它對舊版 Office 文檔(如.doc、.xls)以及 PDF 影印版的支持仍然有限(本增強工程已支持)。
  • 對于復雜格式的報表,MarkItDown 的抽取效果可能不如預期,尤其是在處理非結構化數(shù)據(jù)時,文本轉換效果較為簡單。

然而,在 RAG(Retrieval-Augmented Generation)系統(tǒng)的構建中,MarkItDown 作為初始數(shù)據(jù)的轉換工具,已經為構建更智能的數(shù)據(jù)處理與生成系統(tǒng)提供了巨大的幫助。隨著功能的不斷完善,MarkItDown 將成為更多開發(fā)者實現(xiàn)文檔格式轉換的利器。

如果你對 AI 開發(fā)或者數(shù)據(jù)處理有興趣,不妨嘗試一下 MarkItDown,特別是在結合大語言模型的環(huán)境下,它的潛力無可限量。

責任編輯:武曉燕 來源: JAVA架構日記
相關推薦

2025-01-20 13:10:22

2012-07-20 12:29:47

Office 15微軟

2013-01-29 14:29:44

Office 2013Office 365

2013-01-30 15:22:13

Office 365

2009-10-10 16:20:48

Office套件Google Docs

2010-03-08 15:04:29

Office 2010微軟

2010-01-06 09:43:43

微軟Office 2010

2013-08-01 09:48:58

微軟Office 365

2022-05-24 09:57:32

微軟開源AI 驅動

2010-10-14 09:35:07

Office for

2010-02-26 13:37:48

ExchangeOffice

2012-07-17 09:41:20

微軟谷歌Office

2022-01-18 22:54:09

ExcelMacOffice

2012-07-17 14:06:26

微軟Office 2013

2012-08-21 17:02:19

Office 2013觸摸

2012-07-17 14:36:59

微軟Office2013

2021-07-02 05:27:31

iOS PDFOffice 應用

2021-03-08 05:52:16

微軟Office新版 Office

2018-05-23 09:03:36

2021-02-20 21:06:19

微軟Edge瀏覽器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91社区在线观看高清 | 国产日韩一区二区三免费高清 | 国产精品久久久久久一区二区三区 | 色天堂影院| 国内自拍偷拍 | a免费视频 | 热久久性 | 久久青草av | 黄色免费在线观看网站 | 国产精品免费一区二区三区四区 | 中日字幕大片在线播放 | 婷婷色国产偷v国产偷v小说 | 国产精品久久久久久久久久 | 成人精品在线观看 | 精品欧美一区二区在线观看欧美熟 | 紧缚调教一区二区三区视频 | 亚洲欧美一区二区三区视频 | 亚洲午夜精品一区二区三区 | 久久久久一区二区 | 99这里只有精品视频 | 欧美成人激情视频 | 国产精品久久久久久久久免费樱桃 | 国产精品久久久久久福利一牛影视 | 国产成都精品91一区二区三 | 99re视频在线 | 成人免费小视频 | 9999国产精品欧美久久久久久 | 精品久久久久久久久久 | 亚洲+变态+欧美+另类+精品 | 一级无毛片 | 久久久久网站 | 国产精品视频www | 一区二区三区久久久 | 欧美一级精品片在线看 | 国产午夜精品一区二区 | av久久 | 国产精品日韩一区二区 | 国产精品久久久久久久午夜片 | 国产在线一区二区 | 欧洲在线视频 | 亚洲一区二区不卡在线观看 |