成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

你說我畫,你畫我說:全球超大中文跨模態生成模型文心ERNIE-ViLG

新聞 人工智能
在文字生成圖像上,文心 ERNIE-ViLG 可以根據用戶輸入的文本,自動創作圖像,生成的圖像不僅符合文字描述,而且達到了非常逼真的效果。

 

在文字生成圖像上,文心 ERNIE-ViLG 可以根據用戶輸入的文本,自動創作圖像,生成的圖像不僅符合文字描述,而且達到了非常逼真的效果。在圖像到文本的生成上,文心 ERNIE-ViLG 能夠理解畫面,用簡潔的語言描述畫面的內容,還能夠根據圖片中的場景回答相關的問題。

前不久,百度產業級知識增強大模型 “文心” 全景圖亮相,近日,其中的跨模態生成模型 ERNIE-ViLG 在百度文心官網開放體驗入口,并放出了論文:

體驗鏈接:https://wenxin.baidu.com/wenxin/ernie-vilg

論文鏈接:https://arxiv.org/pdf/2112.15283.pdf

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

據悉,文心 ERNIE-ViLG 參數規模達到 100 億,是目前為止全球最大規模中文跨模態生成模型,該模型首次通過自回歸算法將圖像生成和文本生成統一建模,增強模型的跨模態語義對齊能力,顯著提升圖文生成效果。

小編帶你體驗文心 ERNIE-ViLG “圖像創作”能力:

在文字生成圖像上,文心 ERNIE-ViLG 可以根據用戶輸入的文本,自動創作圖像,生成的圖像不僅符合文字描述,而且達到了非常逼真的效果。

注意!以下圖片都是全新生成,并非可直接搜索到的原圖。

文心 ERNIE-ViLG 不僅能創作建筑、動物等單個物體:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

還可以創作包含多個物體的復雜場景:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

甚至能根據用戶輸入的文字要求腦洞大開:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

對于具有無限想象力的古詩詞,文心 ERNIE-ViLG 也能生成恰如其分的畫面,并根據不同的圖畫風格也有所調整:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG
你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

油畫風格

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

中國畫風格

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

水彩畫風格

此外,還能根據文字提示對圖片進行補全:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

而在圖像到文本的生成上,文心 ERNIE-ViLG 能夠理解畫面,用簡潔的語言描述畫面的內容:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

不僅如此,文心 ERNIE-ViLG 還能夠根據圖片中的場景回答相關的問題:

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

目前文心 ERNIE-ViLG 在百度文心官網開放體驗的文本生圖像 demo 能夠根據古詩詞進行作畫,增強詩詞的畫面感。

在這些能力的背后,究竟蘊含著怎樣的 AI 技術秘密?

跨模態生成:AI 領域極具挑戰性的一道“難題”

跨模態生成,指的是將一種模態 (文本、圖像、語音) 轉換成另一種模態,同時保持模態之間的語義一致性。

圖文生成是跨模態生成的挑戰之一。以圖片生成文本為例,文本描述概括性強,根據文本生成圖片,需要考慮大量文字中未涵蓋的細節信息,具有極高的挑戰性。例如詩句“春江水暖鴨先知”,僅僅描述了江水、鴨子兩個物體和春天這個季節,但沒有具體描述鴨子的顏色、江邊的桃花以及圖中物體之間的位置關系。

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

春江水暖鴨先知

近些年來,基于生成對抗網絡 (GAN) 的方法在人臉、風景等受限領域的文本到圖像生成任務上已取得了不錯的效果;DALL-E 通過超大規模的自回歸生成模型,在圖像片段之間建立了前后依賴的關系,從而具備多樣性生成的建模能力,在多樣性更強、難度更大的開放領域文本到圖像生成上取得了亮眼的效果。

百度文心 ERNIE-ViLG 模型則進一步提出統一的跨模態雙向生成模型,通過自回歸生成模式對圖像生成和文本生成任務進行統一建模,更好地捕捉模態間的語義對齊關系,從而同時提升圖文雙向生成任務的效果。文心 ERNIE-ViLG 在文本生成圖像的權威公開數據集 MS-COCO 上,圖片質量評估指標 FID(Fréchet Inception Distance)遠超 OpenAI 的 DALL-E 等同類模型,并刷新了圖像描述多項任務的最好效果。此外,文心 ERNIE-ViLG 還憑借強大的跨模態理解能力,在生成式視覺問答任務上也取得了領先成績。

文心 ERNIE-ViLG 技術原理解讀:圖文雙向生成統一建模

百度文心 ERNIE-ViLG 使用編碼器 - 解碼器參數共享的 Transformer 作為自回歸生成的主干網絡,同時學習文本生成圖像、圖像生成文本生成兩個任務。

基于圖像向量量化技術,文心 ERNIE-ViLG 把圖像表示成離散的序列,從而將文本和圖像進行統一的序列自回歸生成建模。在文本生成圖像時, 文心 ERNIE-ViLG 模型的輸入是文本 token 序列,輸出是圖像 token 序列;圖像生成文本時則根據輸入的圖像序列預測文本內容。兩個方向的生成任務使用同一個 Transformer 模型。視覺和語言兩個模態在相同模型參數下進行相同模式的生成,能夠促進模型建立更好的跨模態語義對齊。

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 圖文雙向生成統一建模框架

已有基于圖像離散表示的文本生成圖像模型主要采用兩階段訓練,文本生成視覺序列和根據視覺序列重建圖像兩個階段獨立訓練,文心 ERNIE-ViLG 提出了端到端的訓練方法,將序列生成過程中 Transformer 模型輸出的隱層圖像表示連接到重建模型中進行圖像還原,為重建模型提供語義更豐富的特征;對于生成模型,可以同時接收自身的抽象監督信號和來自重建模型的原始監督信號,有助于更好地學習圖像表示。

文心 ERNIE-ViLG 構建了包含 1.45 億高質量中文文本 - 圖像對的大規模跨模態對齊數據集,并基于百度飛槳深度學習平臺在該數據集上訓練了百億參數模型,在文本生成圖像、圖像描述等跨模態生成任務上評估了該模型的效果。

文本生成圖像(Text-to-image Synthesis)任務效果

文心 ERNIE-ViLG 文本生成圖像的能力在開放領域公開數據集 MS-COCO 上進行了驗證。評估指標使用 FID(該指標數值越低效果越好), 在 zero-shot 和 finetune 兩種方式下,文心 ERNIE-ViLG 都取得了最佳成績,效果遠超 OpenAI 發布的 DALL-E 等模型。

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 在 MS-COCO 數據集上的效果

圖像描述(Image Captioning)任務效果

圖像生成文本能力上,文心 ERNIE-ViLG 在 COCO-CN、AIC-ICC 兩個公開中文圖片標題生成數據集上, 都取得了最好成績。

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 在 AIC-ICC 數據集上的效果

生成式視覺問答(Generative VQA)任務效果

在生成式視覺問答方面,文心 ERNIE-ViLG 也展示了不俗的實力。生成式視覺問答要求模型根據圖像內容和對應的問題生成答案,模型需要具備深度的視覺內容理解能力和跨模態的語義對齊能力,并需要生成簡短的答案文本,難度極高。文心 ERNIE-ViLG 在 FMIQA 數據集上取得了最好的效果,圖靈測試的通過率達到了 78.5%,優于當前最好方法 14 個百分點。

你說我畫,你畫我說:全球最大中文跨模態生成模型文心ERNIE-ViLG

文心 ERNIE-ViLG 在 FMIQA 數據集上的效果

結語

讓機器具備跨模態生成能力是人工智能的重要目標之一。在藝術創作、虛擬現實、圖像編輯、AI 輔助設計、虛擬數字人等領域,文心 ERNIE-ViLG 這類跨模態大模型有著廣泛的應用前景,也為這些領域未來的發展提供了無限的創意和可能。作為百度 “文心” 大模型全景圖中的重要一員,文心 ERNIE-ViLG 也代表著百度文心在跨模態大模型領域邁出堅實步伐,從技術自主創新和加速產業應用方面持續推動中國 AI 發展。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2023-03-24 12:55:13

文心一言百度模型

2015-04-16 13:41:24

2012-03-28 22:12:00

游戲

2012-03-26 15:08:22

我畫你猜

2015-04-15 15:07:59

2012-11-05 10:18:21

云存儲你畫我猜云服務

2012-03-26 21:32:38

2023-03-17 07:25:16

李彥宏百度文心一言

2015-03-16 11:33:16

程序員代碼bug

2023-06-20 13:14:32

ChatGPT電影GPT

2025-04-08 11:30:00

DIM數據倉庫架構

2022-12-30 17:18:04

2022-08-08 20:33:12

VolatileJVM

2021-09-02 09:53:42

開發Redis配置

2024-11-04 08:40:00

2018-03-14 14:48:57

人工智能

2023-02-10 08:22:43

Unicode統一碼萬國碼

2022-08-01 08:36:09

upstream下游上游

2020-12-16 06:33:06

thisJava調用

2011-11-24 10:00:10

Xtend
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久热中文字幕 | av无遮挡| 911精品国产 | 国产精品a免费一区久久电影 | 日本精品久久久久久久 | 美女毛片 | 久久99久久99| 亚洲欧洲精品成人久久奇米网 | www国产成人免费观看视频,深夜成人网 | 欧美日韩在线一区二区三区 | 91综合网| 日韩中文字幕免费在线观看 | 九九视频网 | 成人影院一区二区三区 | www.色综合| 欧美精品一区久久 | 日韩一区二区在线视频 | 日韩国产在线观看 | 久在线视频 | 91精品国产一区二区在线观看 | 亚洲日本欧美日韩高观看 | 99久热| 91视频a| 亚洲日本免费 | 欧美一级片在线观看 | 欧美日韩精品一区二区天天拍 | 国产成人a亚洲精品 | 久久夜色精品国产 | 免费看a| 日韩欧美在线观看 | 国产精品乱码一二三区的特点 | 国产福利在线 | 精产嫩模国品一二三区 | 97伦理电影| 国产精品久久久久aaaa九色 | 欧美日韩久久精品 | 日韩免费视频一区二区 | 欧美一区二区三区在线观看 | 美女国内精品自产拍在线播放 | 亚洲婷婷六月天 | 在线国产视频观看 |