成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OCR-Omni來(lái)了!字節(jié)&華師提出統(tǒng)一的多模態(tài)生成模型TextHarmony

人工智能 新聞
TextHarmony是一種多功能多模態(tài)生成模型,擅長(zhǎng)協(xié)調(diào)視覺(jué)文本理解和生成的不同任務(wù)。利用所提出的 Slide-LoRA 機(jī)制,TextHarmony 在單一模型實(shí)例中同步視覺(jué)和語(yǔ)言模態(tài)的生成過(guò)程,有效地解決了不同模態(tài)之間固有的不一致問(wèn)題。

本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

在人工智能領(lǐng)域,賦予機(jī)器類人的圖像文字感知、理解、編輯和生成能力一直是研究熱點(diǎn)。目前,視覺(jué)文字領(lǐng)域的大模型研究主要聚焦于單模態(tài)生成任務(wù)。盡管這些模型在某些任務(wù)上實(shí)現(xiàn)了統(tǒng)一,但在 OCR 領(lǐng)域的多數(shù)任務(wù)上仍難以達(dá)成全面整合。

字節(jié)&華師提出統(tǒng)一的多模態(tài)生成模型TextHarmony:能夠熟練地理解和生成視覺(jué)文本

圖片

圖 (a) 說(shuō)明了不同類型的圖像文本生成模型:視覺(jué)文本理解模型只能生成文本,視覺(jué)文本生成模型只能生成圖像,而 TextHarmony 可以生成文本和圖像。圖 (b) 說(shuō)明了 TextHarmony 在為各種以文本為中心的任務(wù)生成不同模態(tài)方面的多功能性。

相關(guān)鏈接

論文鏈接: https://arxiv.org/abs/2407.16364

代碼開(kāi)源: https://github.com/bytedance/TextHarmony

論文閱讀

圖片

摘要

在這項(xiàng)工作中,我們提出了 TextHarmony,這是一種統(tǒng)一且通用的多模態(tài)生成模型,能夠熟練地理解和生成視覺(jué)文本。由于視覺(jué)和語(yǔ)言模態(tài)之間固有的不一致,同時(shí)生成圖像和文本通常會(huì)導(dǎo)致性能下降。

為了克服這一挑戰(zhàn),現(xiàn)有方法依靠特定模態(tài)的數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),這需要不同的模型實(shí)例。我們提出了 Slide-LoRA,它動(dòng)態(tài)地聚合了特定模態(tài)和模態(tài)無(wú)關(guān)的 LoRA 專家,部分解耦了多模態(tài)生成空間。Slide-LoRA 在單一模型實(shí)例中協(xié)調(diào)視覺(jué)和語(yǔ)言的生成,從而促進(jìn)了更統(tǒng)一的生成過(guò)程。此外,我們開(kāi)發(fā)了一個(gè)高質(zhì)量的圖像標(biāo)題數(shù)據(jù)集 DetailedTextCaps-100K,并與復(fù)雜的閉源 MLLM 合成,以進(jìn)一步增強(qiáng)視覺(jué)文本生成能力。在各種基準(zhǔn)上進(jìn)行的全面實(shí)驗(yàn)證明了所提出方法的有效性。

在 Slide-LoRA 的支持下,TextHarmony 僅增加了 2% 的參數(shù),就實(shí)現(xiàn)了與特定模態(tài)微調(diào)結(jié)果相當(dāng)?shù)男阅埽⑶以谝曈X(jué)文本理解任務(wù)中平均提高了 2.5%,在視覺(jué)文本生成任務(wù)中平均提高了 4.0%。我們的工作描述了在視覺(jué)文本領(lǐng)域內(nèi)采用集成方法進(jìn)行多模態(tài)生成的可行性,為后續(xù)研究奠定了基礎(chǔ)。

方法

圖片TextHarmony 的管道。TextHarmony 通過(guò)連接視覺(jué)編碼器、LLM 和圖像解碼器來(lái)生成文本和視覺(jué)內(nèi)容。提出的 Slide-LoRA 模塊通過(guò)部分分離參數(shù)空間來(lái)緩解多模式生成中的不一致問(wèn)題。

實(shí)驗(yàn)

圖片可視化文本生成結(jié)果。

圖片可視化文本編輯結(jié)果。

圖片DetailedTextCaps-100K 的更多示例。

圖片TextHarmony 視覺(jué)文本理解和感知能力的可視化。

結(jié)論

TextHarmony是一種多功能多模態(tài)生成模型,擅長(zhǎng)協(xié)調(diào)視覺(jué)文本理解和生成的不同任務(wù)。利用所提出的 Slide-LoRA 機(jī)制,TextHarmony 在單一模型實(shí)例中同步視覺(jué)和語(yǔ)言模態(tài)的生成過(guò)程,有效地解決了不同模態(tài)之間固有的不一致問(wèn)題。該模型架構(gòu)擅長(zhǎng)執(zhí)行涉及處理和生成圖像、蒙版、文本和布局的任務(wù),特別是在光學(xué)字符識(shí)別 (OCR) 和文檔分析領(lǐng)域。TextHarmony 的成就預(yù)示著在視覺(jué)文本領(lǐng)域內(nèi)綜合多模態(tài)生成模型的巨大潛力。TextHarmony 的適應(yīng)性表明,類似性質(zhì)的模型可以有效地應(yīng)用于各種應(yīng)用程序,為依賴視覺(jué)文本理解和生成復(fù)雜相互作用的行業(yè)帶來(lái)革命性的前景。

責(zé)任編輯:張燕妮 來(lái)源: AIGC Studio
相關(guān)推薦

2024-10-21 11:05:00

2025-03-04 09:50:00

2023-06-06 14:09:32

模型開(kāi)源

2023-07-17 11:02:36

模型開(kāi)源

2024-12-18 09:34:13

2025-02-12 13:31:33

2025-05-14 08:51:00

2025-05-27 15:59:41

AI工具模型

2025-06-13 08:45:00

數(shù)據(jù)模型可視化

2023-12-25 13:24:00

模型OCR頁(yè)面

2025-06-09 08:50:00

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語(yǔ)言

2024-04-08 12:19:19

AI數(shù)據(jù)

2025-03-12 13:09:16

2024-03-21 14:18:00

模型感知

2023-06-05 10:09:03

研究人工智能

2024-03-25 12:40:19

訓(xùn)練模型

2025-01-08 08:21:16

2024-12-12 00:25:09

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久国产视频播放 | 婷婷国产一区二区三区 | 国产美女黄色 | 一区二区三区免费看 | 国产欧美视频一区 | 在线视频日韩 | 免费成人高清 | 精品产国自在拍 | 日韩欧美一级精品久久 | 在线视频99 | 天天草视频 | 久久在线精品 | 一区二区三区在线播放 | 亚洲视频精品 | 中文字幕不卡在线观看 | 国产精品亚洲片在线播放 | 99热在线观看精品 | 国产精品一码二码三码在线 | 日韩欧美理论片 | 成人精品国产免费网站 | 国产999精品久久久久久绿帽 | 久久精品在线免费视频 | 黄色免费在线观看 | 春色av| 天天操 夜夜操 | 99久久久久久久久 | 国产精品1区 | 中文字幕国产第一页 | 久久久入口 | 国产日韩欧美激情 | 亚洲国产精品成人无久久精品 | 日本不卡免费新一二三区 | 91免费视频观看 | 亚洲一区二区在线视频 | 免费在线观看av | 日韩av成人在线观看 | 亚洲高清中文字幕 | 日韩a在线 | 在线免费激情视频 | 九九99久久 | 麻豆国产一区二区三区四区 |