成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OCR-Omni來了,字節&華師統一多模態文字理解與生成 | NeurIPS2024

人工智能 新聞
TextHarmony 作為 OCR 領域的多功能多模態生成模型,成功統一了視覺文本理解和生成任務。

多模態生成新突破,字節&華師團隊打造TextHarmony,在單一模型架構中實現模態生成的統一,并入選NeurIPS 2024。

過去,視覺文字領域的大模型研究聚焦于單模態生成,雖然在個別任務上實現了模型的統一,但很難在OCR領域的多數任務上做到全面整合。

例如,Monkey等視覺語言模型(VLM)擅長文字檢測、識別和視覺問答(VQA)等文本模態生成任務,卻無法勝任文字圖像的生成、抹除和編輯等圖像模態生成任務。反之,以 AnyText 為代表的基于擴散模型的圖像生成模型則專注于圖像創建。因此,OCR領域亟需一個能夠統一多模態生成的大模型。

圖片

為解決這一難題,字節跳動與華東師范大學的聯合研究團隊提出了創新性的多模態生成模型TextHarmony,不僅精通視覺文本的感知、理解和生成,還在單一模型架構中實現了視覺與語言模態生成的和諧統一。

目前論文已經上傳arXiv,代碼也即將開源,鏈接可在文末領取。

圖片

TextHarmony: 核心貢獻

TextHarmony的核心優勢在于其成功整合了視覺文本的理解和生成能力。傳統研究中,這兩類任務通常由獨立模型處理。TextHarmony 通過融合這兩大類生成模型,實現了視覺文字理解和生成的同步進行,從而統籌了 OCR 領域的多數任務。

研究表明,視覺理解和生成之間存在顯著差異,直接整合可能導致嚴重的模態不一致問題。具體而言,多模態生成模型在文本生成(視覺感知、理解)和圖像生成方面,相較于專門的單模態模型,性能出現明顯退化。

圖片

數據顯示,多模態生成模型在文本生成任務上較單模態模型效果降低 5%,圖像生成任務上最高降低8%。而 TextHarmony 成功緩解了這一問題,其在兩類任務上的表現均接近單模態專家模型水平。

技術創新

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的組合架構:

  • ViT 負責圖像到視覺 token 序列的轉換。
  • MLLM 處理視覺 token 和文本 token 的交叉序列,輸出兩類 token:
  • 文本 token 經文本解碼器轉化為文本輸出。
  • 視覺 token 與文本 token 結合,作為 Diffusion Model 的條件指引,生成目標圖像。

這種結構實現了多模態內容的全面理解與生成。

Slide-LoRA:解決方案

為克服訓練過程中的模態不一致問題,研究者提出了 Slide-LoRA 技術。該方法通過動態整合模態特定和模態無關的 LoRA(Low-Rank Adaptation)專家,在單一模型中實現了圖像和文本生成空間的部分解耦。

Slide-LoRA 包含一個動態門控網絡和三個低秩分解模塊:

  • 模態特定 LoRA 專家聚焦于特定模態(視覺或語言)的生成任務。
  • 模態無關 LoRA 專家處理跨模態的通用特征。
  • 動態門控網絡根據輸入特征,靈活調度不同專家的參與度。

圖片

DetailedTextCaps-100K: 高質量數據集

為提升視覺文本生成性能,研究團隊開發了 DetailedTextCaps-100K 數據集。該集利用閉源 MLLM(Gemini Pro)生成詳盡的圖像描述,為模型提供了更豐富、更聚焦于視覺和文本元素的訓練資源。

圖片

訓練策略

TextHarmony 采用兩階段訓練方法:

  1. 首階段利用 MARIO-LAION 和 DocStruct4M 等圖文對預訓練對齊模塊和圖像解碼器,構建基礎的文本生成與圖像生成能力。
  2. 次階段運用視覺文本的生成、編輯、理解、感知四類數據進行統一微調。此階段開放 ViT、對齊模塊、圖像解碼器和 Slide-LoRA 的參數更新,以獲得統一的多模態理解與生成能力。

實驗評估

研究者對 TextHarmony 在視覺文本場景下進行了全面評估,涵蓋理解、感知、生成與編輯四個維度:

視覺文本理解:TextHarmony 顯著優于多模態生成模型,性能接近 Monkey 等專業文字理解模型。

圖片

視覺文本感知:在OCR定位任務上,TextHarmony超過了TGDoc、DocOwl1.5等知名模型。

圖片

視覺文本編輯與生成:TextHarmony 大幅領先于現有多模態生成模型,且與 TextDiffuser2 等專業模型相當。

圖片

文字生成效果對比

圖片

文字編輯效果對比

圖片

文字圖像感知與理解可視化

圖片

總結與展望

TextHarmony 作為 OCR 領域的多功能多模態生成模型,成功統一了視覺文本理解和生成任務。通過創新的 Slide-LoRA 技術,它有效解決了多模態生成中的模態不一致問題,在單一模型中實現了視覺與語言模態的和諧統一。TextHarmony 在視覺文字感知、理解、生成和編輯方面展現出卓越性能,為復雜的視覺文本交互任務開辟了新的可能性。

這項研究不僅推動了 OCR 技術的進步,也為人工智能在理解和創造方面的發展提供了重要參考。未來,TextHarmony 有望在自動文檔處理、智能內容創作、教育輔助等多個領域發揮重要作用,進一步推動人工智能的應用。

論文鏈接: https://arxiv.org/abs/2407.16364
代碼開源: https://github.com/bytedance/TextHarmony(即將開源)

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-06 10:00:00

模型視覺生成

2025-03-04 09:50:00

2025-05-27 15:59:41

AI工具模型

2023-06-06 14:09:32

模型開源

2024-12-18 09:34:13

2025-06-09 08:50:00

2024-10-22 13:33:48

2024-12-11 15:00:00

2025-04-14 00:20:00

2024-12-31 14:00:00

模型訓練數據

2025-05-20 09:08:59

2025-06-30 13:57:59

開源模型AI

2023-07-17 11:02:36

模型開源

2025-04-10 09:15:00

模型AI數據

2024-03-25 12:40:19

訓練模型

2025-02-12 10:20:00

2025-05-14 08:51:00

2025-06-13 08:45:00

數據模型可視化

2023-07-30 16:05:44

多模態學習框架自然語言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 福利色导航 | 一区二区三区四区在线视频 | 亚洲精品久久久久久一区二区 | 日韩欧美久久 | 成人一区二区三区在线 | 91在线看| 欧美日韩在线视频一区 | 欧美黄色大片在线观看 | 一区二区三区四区免费视频 | 黄色三级免费网站 | 精品欧美一区二区三区久久久 | 国产一级视频在线播放 | 欧美日韩国产一区二区三区 | 国产精品乱码一区二区三区 | 久久久91精品国产一区二区三区 | 综合色播 | h视频在线免费看 | 91视频进入| 欧美在线国产精品 | 麻豆成人在线视频 | 亚洲高清视频一区 | 日韩国产中文字幕 | 极品在线 | 国产精品18毛片一区二区 | 国产精品美女 | 亚洲精品免费视频 | 欧美日韩亚洲一区 | 女女百合av大片一区二区三区九县 | 美女国产| 国产一区二区在线免费播放 | 日本不卡一区 | 日韩福利片 | 91伊人网 | 四虎最新 | 欧美精品久久久久久久久久 | 色天堂视频 | 欧美精品1区2区 | 中文字幕 亚洲一区 | 久久精品高清视频 | 色偷偷人人澡人人爽人人模 | 特黄特色大片免费视频观看 |