微軟再扔AI聊天畫圖炸彈！視覺模型加持ChatGPT，Visual ChatGPT橫空出世

作者：新智元 2023-03-10 13:11:12

開發(fā) 前端

要說ChatGPT已經(jīng)是核彈級的現(xiàn)象，那么微軟今天發(fā)布的Visual ChatGPT可以稱的上宇宙大爆炸。在視覺模型加持下的ChatGPT，聊天生圖全拿捏了。

圖文版ChatGPT誕生了！

剛剛，微軟亞研院發(fā)布了一個炸彈級模型Visual ChatGPT。

論文地址：https://arxiv.org/abs/2303.04671

以前的ChatGPT雖然具有卓越的對話能力和推理能力，但也有短板——還不能處理或生成視覺圖像。

而Visual Transformers或Stable Diffusion，雖然在視覺理解和生成能力上很強大，卻只有一輪固定的輸入和輸出。

微軟亞研院學(xué)者提出的模型，就把視覺模型信息注入了ChatGPT，使用戶能夠與ChatGPT以語言和圖像的形式交互，還能提供復(fù)雜的視覺指令，讓多個模型通過多步驟協(xié)作。

微軟前不久推出的Kosmos-1，就屬于多模態(tài)大語言模型，傳言下周發(fā)布的GPT4，據(jù)說也是轉(zhuǎn)向了多模態(tài)。看來，微軟在下一盤多模態(tài)的大棋。

作畫、上色、摳圖，一鍵拿捏

注入視覺模型后，ChatGPT直接化身藝術(shù)大師，想要什么作品，動動嘴就行了。

-幫我畫一個蘋果。Visual ChatGPT直接生成了一張畫好的圖。

這還僅是前菜，Visual ChatGPT各種畫風(fēng)全能hold住，比如：

隨便給個草圖框架，它便能輸出一幅精美的畫作。

另外，上色、「摳圖」、深度圖、基于深度圖再生成圖片都能拿捏。

一張簡陋的圖經(jīng)過你的精心調(diào)教后，就變成了這個樣子。

當(dāng)然了，Visual ChatGPT沒有忘本，讓它進(jìn)行創(chuàng)作的同時，還能描述圖片、回答問題。

有了Visual ChatGPT的加持，微軟必應(yīng)簡直可以制霸全世界了。

Prompt Manager，讓視覺模型立刻和ChatGPT合體

研究者是如何想到這個點子的呢？

當(dāng)紅炸子雞ChatGPT能輸入輸出文字類的信息，但是在圖像理解和生成方面能力有限。

Visual ChatGPT并非是從頭訓(xùn)練的，而是直接基于ChatGPT構(gòu)建，并向其注入了許多可視化模型（VFMs）。Stable Diffusion就是可視化模型的典型代表。

VFMs雖然在文本-圖像生成上展現(xiàn)出巨大能力，但在人機交互上卻不如對話語言模型靈活。

微軟亞研院的研究人員便get了一個點，將這兩者結(jié)合，提出Visual ChatGPT，豈不是強強聯(lián)合。

點子有了，那視覺模型信息如何注入ChatGPT呢？就是通過一系列提示。

論文中提出了Prompt Manager，具體步驟是——

1 首先明確告訴ChatGPT每個VFM的能力，并指定輸入-輸出格式。

2 然后轉(zhuǎn)換不同的視覺信息，比如將Png圖、深度圖和掩模矩陣，轉(zhuǎn)換為語言格式。

3 最后處理不同VFMs的歷史、優(yōu)先級和沖突。

在Prompt Manager的幫助下，ChatGPT可以利用這些VFMs，并以迭代的方式接收其反饋，直到滿足用戶的要求或達(dá)到結(jié)束條件。

如圖，上傳一個黃色花朵的圖像，然后輸入一個復(fù)雜語言指令「請根據(jù)圖像的預(yù)測深度生成一朵紅色花朵，然后一步一步地把它做成卡通形象」。

Visual ChatGPT便開始執(zhí)行任務(wù)鏈：

首先應(yīng)用深度估計模型來檢測深度信息，然后利用深度圖像模型生成一個帶有深度信息的紅色花朵圖形，最后利用基于Stable Diffusion的風(fēng)格轉(zhuǎn)換VFM，將該圖像轉(zhuǎn)化為卡通風(fēng)格。

在上述管道中，Prompt Manager通過提供可視化格式的類型，和記錄信息轉(zhuǎn)換的過程，來充當(dāng)ChatGPT的調(diào)度器。

最后，當(dāng) Visual ChatGPT從Prompt Manager獲得「卡通」提示時，將結(jié)束執(zhí)行管道，并顯示最終結(jié)果。

模型概述

左邊是進(jìn)行的三輪對話；中間是Visual ChatGPT如何迭代調(diào)用VFMs并提供答案的流程圖；右側(cè)是第二個QA的詳細(xì)過程。

M（P）

Visual ChatGPT為了能讓不同的VFM理解視覺信息并生成相應(yīng)答案，需要設(shè)計一系列系統(tǒng)原則，并將其轉(zhuǎn)化為ChatGPT能夠理解的提示。

通過生成這樣的提示，Prompt Manager能夠幫助Visual ChatGPT完成生成文本、圖像的任務(wù)，能夠訪問一系列VFM并自由選擇使用哪個基礎(chǔ)模型，提高對文件名的敏感度，進(jìn)行鏈?zhǔn)剿伎己蛧?yán)格推理。

M（F）

Prompt Manager需要幫助Visual ChatGPT區(qū)分不同的VFM，以便準(zhǔn)確地完成圖像任務(wù)。

為此，Prompt Manager對各個基礎(chǔ)模型的名稱、應(yīng)用場景、輸入和輸出提示以及實例給出了具體定義。

M（Q）

Prompt Manager會對用戶新上傳的圖像生成唯一文件名，并生成假的對話歷史，其中提到該名稱的圖片已經(jīng)收到，這樣可以在涉及引用現(xiàn)有圖像的查詢時忽略文件名的檢查。

Prompt Manager會在查詢問題之后加上一個后綴提示，來確保成功觸發(fā)VFM，強制Visual ChatGPT進(jìn)行思考，給出言之有物的輸出。

M（F（A））

VFM給出的中間輸出，Prompt Manager會為其生成鏈?zhǔn)轿募鳛橄乱惠唭?nèi)部對話的輸入。

ChatGPT生成最終答案要經(jīng)歷一個不斷迭代的過程，它會不斷自我詢問，自動調(diào)用更多VFM。而當(dāng)用戶指令不夠清晰時，Visual ChatGPT會詢問其能否提供更多細(xì)節(jié)，避免機器自行揣測甚至篡改人類意圖。

Prompt Manager概述

每個視覺基礎(chǔ)模型的GPU顯存使用情況如下：

通過修改self.tools來調(diào)整模型的使用數(shù)量，便可以節(jié)省顯存。

案例研究

此外，論文還分析了在各個模塊，如果Prompt Manager的設(shè)計不到位，會各自出現(xiàn)什么問題。

比如，對于工具包的描述，需要對其名字、功能、輸入輸出有嚴(yán)格的設(shè)計。不過舉例影響不大，只要描述清楚，ChatGPT便可以理解。

另外，在M(P)中，不強調(diào)對圖片文件名的敏感，沒有嚴(yán)格的思考鏈格式、不強調(diào)可靠性、還有可以使用鏈?zhǔn)绞褂霉ぞ撸Ｐ驮谳敵鰰r就會產(chǎn)生錯誤。

論文中，作者也指出了當(dāng)前Visual ChatGPT存在的一些局限。

比如，需要大量的提示來將VFMs轉(zhuǎn)換成語言，實時能力有限、token長度有限制等等。

作者介紹

論文一作吳晨飛，高級研究員，2020年加入微軟亞洲研究院自然語言計算組，研究領(lǐng)域為多模型的預(yù)訓(xùn)練、理解和生成。

通訊作者段楠，微軟亞洲研究院首席研究員及自然語言計算組研究經(jīng)理，中國科學(xué)技術(shù)大學(xué)兼職博導(dǎo)，天津大學(xué)兼職教授，研究領(lǐng)域為自然語言處理、代碼智能、多模態(tài)智能和機器推理等。

Visual ChatGPT的橫空出世，讓ChatGPT聊天更加絲滑了。

有網(wǎng)友預(yù)測，這個功能會迅速集成到新必應(yīng)中，可能作為付費服務(wù)，讓日常消費者更接近與「人類」的對話……

也有網(wǎng)友說，這個應(yīng)用簡直堪比早期的智能手機，相當(dāng)于人們早期的應(yīng)用程序開發(fā)。可以想象，它們最終的使用范圍會比最初設(shè)想的要廣泛得多。

責(zé)任編輯：武曉燕來源：新智元

ChatGPT AI 微軟

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟再扔AI聊天畫圖炸彈！視覺模型加持ChatGPT，Visual ChatGPT橫空出世

作畫、上色、摳圖，一鍵拿捏

Prompt Manager，讓視覺模型立刻和ChatGPT合體

模型概述

案例研究