成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

突破分辨率極限,字節聯合中科大提出多模態文檔大模型

人工智能 新聞
在此研究中,作者團隊提出DocPedia,一個統一的高分辨率多模態文檔大模型DocPedia。

現在連文檔都有大模型了,還是高分辨率、多模態的那種!

不僅能準確識別出圖像里的信息,還能結合用戶需求調用自己的知識庫來回答問題。

比如,看到圖中馬里奧的界面,直接就回答出了這是任天堂公司的作品。

圖片

這款模型由字節跳動和中國科學技術大學合作研究,于2023年11月24日上傳至arXiv。

在此研究中,作者團隊提出DocPedia,一個統一的高分辨率多模態文檔大模型DocPedia。

圖片

在此研究中,作者用一種新的方式解決了現有模型不能解析高分辨文檔圖像的短板。

DocPedia分辨率可達2560×2560,而目前業內先進多模態大模型如LLaVA、MiniGPT-4等處理圖像分辨率上限為336×336,無法解析高分辨率的文檔圖像。

那么,這款模型究竟表現如何,又使用了怎樣的優化方式呢?

各項測評成績顯著提升

在論文中,作者展示了DocPedia高分辨圖文理解的示例,可以看到DocPedia能理解指令內容,準確地從高分辨率的文檔圖像和自然場景圖像中提取相關的圖文信息。

比如這組圖中,DocPedia輕松從圖片中挖掘出了車牌號、電腦配置等文本信息,甚至手寫文字也能準確判斷。

圖片

結合圖像中的文本信息,DocPedia還可以利用大模型推理能力,根據上下文分析問題。

圖片

讀取完圖片信息后,DocPedia還會根據其儲備的豐富的世界知識,回答圖像中沒有展示出來的擴展內容。

圖片

下表定量對比了現有的一些多模態大模型和DocPedia的關鍵信息抽取(KIE)和視覺問答(VQA)能力。

可以看到,分辨率的提升和有效的訓練方法使DocPedia在各項測試基準上均取得了不錯的提升。

圖片

那么,DocPedia是如何實現這樣的效果的呢?

從頻域出發解決分辨率問題

DocPedia的訓練分為兩個階段:預訓練和微調。為了訓練DocPedia,作者團隊收集了包含各類文檔的大量圖文數據,并構建指令微調數據集。

在預訓練階段,大語言模型被凍結,僅優化視覺編碼器部分,使其輸出token的表征空間與大語言模型對齊。

在此階段,作者團隊提出主要訓練DocPedia的對感知能力,包括對文字和自然場景的感知。

預訓練任務包括文字檢測、文字識別、端到端OCR、段落閱讀、全文閱讀,以及圖像文字說明。

在微調階段,大語言模型解凍,整個模型端到端優化。

并且,作者團隊提出感知-理解聯合訓練策略:在原有低階感知任務的基礎上,增加文檔理解、場景圖像兩種高階的偏語義理解的任務。

這樣一種感知-理解聯合訓練策略,進一步提高了DocPedia的性能。

圖片

在分辨率問題的策略上,與現有方法不同,DocPedia從頻域的角度出發去解決。

給定一張高分辨率文檔圖像,DocPedia首先提取其DCT系數矩陣。該矩陣在不損失原圖像圖文信息的前提下,將其空間分辨率下采樣8倍。

然后,通過一個級聯的頻域適配器(Frequency Adapter),將其輸入視覺編碼器(Vision Encoder)進行進一步的分辨率壓縮和特征提取。

通過此方法,一張2560×2560的圖像,其圖文信息可以用1600個token表示。

該方法相較于直接將原始圖像輸入到視覺編碼器(如Swin Transformer)中,token數量減少4倍。

最后,這些token與指令轉換而來的token進行序列維度拼接,輸入到大模型進行回答。

消融實驗結果表明,分辨率的提升和感知-理解聯合微調是DocPedia表現增強的兩大關鍵因素。

下圖對比了DocPedia對于一張論文圖像以及同一個指令,在不同輸入尺度下的回答。可以看到,當且僅當分辨率提升至2560×2560時,DocPedia回答正確。

圖片

下圖則對比了DocPedia對于同一張場景文字圖像以及同一個指令,在不同微調策略下模型的回答。

由該示例可以看到,進行了感知-理解聯合微調的模型,能準確地進行文字識別和語義問答。

圖片

論文地址:https://arxiv.org/abs/2311.11810

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-11-04 13:30:00

模型AI

2024-06-17 07:10:00

2023-10-30 15:06:00

模型數據

2024-11-04 08:30:00

2025-04-15 09:22:00

AI訓練模型

2025-05-26 09:41:26

2025-03-03 08:00:00

小紅書AI圖像檢測模型AI

2025-04-17 14:11:10

視覺AI模型

2025-01-13 03:00:00

模型數據訓練

2021-12-06 09:53:09

自然語言神經網絡人工智能

2023-03-17 07:59:57

AI數字化

2024-09-26 10:04:20

2024-12-02 10:40:00

AI模型

2025-04-01 09:32:00

模型訓練AI

2024-04-07 09:00:00

數據模型

2025-05-09 08:40:00

2025-01-16 10:20:00

AI生成動畫

2021-08-10 16:01:18

模型人工智能深度學習

2025-04-01 09:20:00

模型預測AI

2025-01-08 08:21:16

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线一级片 | 欧美精品三区 | 2018国产大陆天天弄 | 国产毛片av| 日日碰狠狠躁久久躁96avv | 一区二区三区高清不卡 | 在线观看亚洲精品 | 亚洲高清在线 | 日韩精品视频中文字幕 | 成人在线精品视频 | 一级黄色在线 | 九九亚洲 | 精品亚洲一区二区三区 | 青青草视频免费观看 | 日本在线一二 | 欧美白人做受xxxx视频 | 国产在线精品一区二区 | 欧美a在线 | 91亚洲欧美| 国产成人精品一区二区 | 亚洲精品乱码久久久久久按摩 | 国产精品久久久久久吹潮日韩动画 | 男女国产网站 | 欧美日韩在线播放 | 精品一区二区三区免费视频 | 野狼在线社区2017入口 | 久久神马| 久久久成人精品 | 中文字幕日韩欧美一区二区三区 | 国产丝袜一区二区三区免费视频 | 欧美一级欧美一级在线播放 | 国产成人精品一区二区三区网站观看 | 99视频在线播放 | 欧美极品在线观看 | 黄色三级免费网站 | 日韩综合网| 国产一区二区三区久久久久久久久 | 久久久精品影院 | 亚洲精品日韩综合观看成人91 | 色播久久 | 五月婷婷丁香 |