成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟再扔AI聊天畫圖炸彈!視覺模型加持ChatGPT,Visual ChatGPT橫空出世

開發(fā) 前端
要說ChatGPT已經(jīng)是核彈級的現(xiàn)象,那么微軟今天發(fā)布的Visual ChatGPT可以稱的上宇宙大爆炸。在視覺模型加持下的ChatGPT,聊天生圖全拿捏了。

圖文版ChatGPT誕生了!

剛剛,微軟亞研院發(fā)布了一個炸彈級模型Visual ChatGPT。

圖片

論文地址:https://arxiv.org/abs/2303.04671

以前的ChatGPT雖然具有卓越的對話能力和推理能力,但也有短板——還不能處理或生成視覺圖像。

而Visual Transformers或Stable Diffusion,雖然在視覺理解和生成能力上很強大,卻只有一輪固定的輸入和輸出。

微軟亞研院學(xué)者提出的模型,就把視覺模型信息注入了ChatGPT,使用戶能夠與ChatGPT以語言和圖像的形式交互,還能提供復(fù)雜的視覺指令,讓多個模型通過多步驟協(xié)作。

微軟前不久推出的Kosmos-1,就屬于多模態(tài)大語言模型,傳言下周發(fā)布的GPT4,據(jù)說也是轉(zhuǎn)向了多模態(tài)。看來,微軟在下一盤多模態(tài)的大棋。

作畫、上色、摳圖,一鍵拿捏

注入視覺模型后,ChatGPT直接化身藝術(shù)大師,想要什么作品,動動嘴就行了。

-幫我畫一個蘋果。Visual ChatGPT直接生成了一張畫好的圖。

圖片

這還僅是前菜,Visual ChatGPT各種畫風(fēng)全能hold住,比如:

隨便給個草圖框架,它便能輸出一幅精美的畫作。

圖片

另外,上色、「摳圖」、深度圖、基于深度圖再生成圖片都能拿捏。

一張簡陋的圖經(jīng)過你的精心調(diào)教后,就變成了這個樣子。

圖片

當(dāng)然了,Visual ChatGPT沒有忘本,讓它進(jìn)行創(chuàng)作的同時,還能描述圖片、回答問題。

圖片

有了Visual ChatGPT的加持,微軟必應(yīng)簡直可以制霸全世界了。

Prompt Manager,讓視覺模型立刻和ChatGPT合體

研究者是如何想到這個點子的呢?

當(dāng)紅炸子雞ChatGPT能輸入輸出文字類的信息,但是在圖像理解和生成方面能力有限。

Visual ChatGPT并非是從頭訓(xùn)練的,而是直接基于ChatGPT構(gòu)建,并向其注入了許多可視化模型(VFMs)。Stable Diffusion就是可視化模型的典型代表。

VFMs雖然在文本-圖像生成上展現(xiàn)出巨大能力,但在人機交互上卻不如對話語言模型靈活。

微軟亞研院的研究人員便get了一個點,將這兩者結(jié)合,提出Visual ChatGPT,豈不是強強聯(lián)合。

點子有了,那視覺模型信息如何注入ChatGPT呢?就是通過一系列提示。

論文中提出了Prompt Manager,具體步驟是——

1 首先明確告訴ChatGPT每個VFM的能力,并指定輸入-輸出格式。

2 然后轉(zhuǎn)換不同的視覺信息,比如將Png圖、深度圖和掩模矩陣,轉(zhuǎn)換為語言格式。

3 最后處理不同VFMs的歷史、優(yōu)先級和沖突。

圖片

在Prompt Manager的幫助下,ChatGPT可以利用這些VFMs,并以迭代的方式接收其反饋,直到滿足用戶的要求或達(dá)到結(jié)束條件。

如圖,上傳一個黃色花朵的圖像,然后輸入一個復(fù)雜語言指令「請根據(jù)圖像的預(yù)測深度生成一朵紅色花朵,然后一步一步地把它做成卡通形象」。

Visual ChatGPT便開始執(zhí)行任務(wù)鏈:

首先應(yīng)用深度估計模型來檢測深度信息,然后利用深度圖像模型生成一個帶有深度信息的紅色花朵圖形,最后利用基于Stable Diffusion的風(fēng)格轉(zhuǎn)換VFM,將該圖像轉(zhuǎn)化為卡通風(fēng)格。

在上述管道中,Prompt Manager通過提供可視化格式的類型,和記錄信息轉(zhuǎn)換的過程,來充當(dāng)ChatGPT的調(diào)度器。

最后,當(dāng) Visual ChatGPT從Prompt Manager獲得「卡通」提示時,將結(jié)束執(zhí)行管道,并顯示最終結(jié)果。

模型概述

圖片

左邊是進(jìn)行的三輪對話;中間是Visual ChatGPT如何迭代調(diào)用VFMs并提供答案的流程圖;右側(cè)是第二個QA的詳細(xì)過程。

M(P)

Visual ChatGPT為了能讓不同的VFM理解視覺信息并生成相應(yīng)答案,需要設(shè)計一系列系統(tǒng)原則,并將其轉(zhuǎn)化為ChatGPT能夠理解的提示。

通過生成這樣的提示,Prompt Manager能夠幫助Visual ChatGPT完成生成文本、圖像的任務(wù),能夠訪問一系列VFM并自由選擇使用哪個基礎(chǔ)模型,提高對文件名的敏感度,進(jìn)行鏈?zhǔn)剿伎己蛧?yán)格推理。

M(F)

Prompt Manager需要幫助Visual ChatGPT區(qū)分不同的VFM,以便準(zhǔn)確地完成圖像任務(wù)。

為此,Prompt Manager對各個基礎(chǔ)模型的名稱、應(yīng)用場景、輸入和輸出提示以及實例給出了具體定義。

M(Q)

Prompt Manager會對用戶新上傳的圖像生成唯一文件名,并生成假的對話歷史,其中提到該名稱的圖片已經(jīng)收到,這樣可以在涉及引用現(xiàn)有圖像的查詢時忽略文件名的檢查。

Prompt Manager會在查詢問題之后加上一個后綴提示,來確保成功觸發(fā)VFM,強制Visual ChatGPT進(jìn)行思考,給出言之有物的輸出。

M(F(A))

VFM給出的中間輸出,Prompt Manager會為其生成鏈?zhǔn)轿募鳛橄乱惠唭?nèi)部對話的輸入。

ChatGPT生成最終答案要經(jīng)歷一個不斷迭代的過程,它會不斷自我詢問,自動調(diào)用更多VFM。而當(dāng)用戶指令不夠清晰時,Visual ChatGPT會詢問其能否提供更多細(xì)節(jié),避免機器自行揣測甚至篡改人類意圖。

圖片

Prompt Manager概述

每個視覺基礎(chǔ)模型的GPU顯存使用情況如下:

圖片

通過修改self.tools來調(diào)整模型的使用數(shù)量,便可以節(jié)省顯存。

案例研究

此外,論文還分析了在各個模塊,如果Prompt Manager的設(shè)計不到位,會各自出現(xiàn)什么問題。

比如,對于工具包的描述,需要對其名字、功能、輸入輸出有嚴(yán)格的設(shè)計。不過舉例影響不大,只要描述清楚,ChatGPT便可以理解。

圖片

另外,在M(P)中,不強調(diào)對圖片文件名的敏感,沒有嚴(yán)格的思考鏈格式、不強調(diào)可靠性、還有可以使用鏈?zhǔn)绞褂霉ぞ撸P驮谳敵鰰r就會產(chǎn)生錯誤。

論文中,作者也指出了當(dāng)前Visual ChatGPT存在的一些局限。

比如,需要大量的提示來將VFMs轉(zhuǎn)換成語言,實時能力有限、token長度有限制等等。

作者介紹

論文一作吳晨飛,高級研究員,2020年加入微軟亞洲研究院自然語言計算組,研究領(lǐng)域為多模型的預(yù)訓(xùn)練、理解和生成。

圖片

通訊作者段楠,微軟亞洲研究院首席研究員及自然語言計算組研究經(jīng)理,中國科學(xué)技術(shù)大學(xué)兼職博導(dǎo),天津大學(xué)兼職教授,研究領(lǐng)域為自然語言處理、代碼智能、多模態(tài)智能和機器推理等。

圖片

Visual ChatGPT的橫空出世,讓ChatGPT聊天更加絲滑了。

圖片

有網(wǎng)友預(yù)測,這個功能會迅速集成到新必應(yīng)中,可能作為付費服務(wù),讓日常消費者更接近與「人類」的對話……

也有網(wǎng)友說,這個應(yīng)用簡直堪比早期的智能手機,相當(dāng)于人們早期的應(yīng)用程序開發(fā)。可以想象,它們最終的使用范圍會比最初設(shè)想的要廣泛得多。

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2010-03-25 10:04:10

UbuntuOne M

2024-01-12 10:25:02

蓋茨ChatGPT

2025-06-23 15:55:46

2021-12-17 07:00:56

ESMongoDBRedisJson

2018-11-29 10:49:36

2022-12-23 15:01:33

ChatGPT谷歌

2010-12-09 09:09:37

2016-10-08 23:30:58

Power8云計算

2022-05-12 15:25:16

惡意軟件網(wǎng)絡(luò)攻擊

2013-11-01 09:07:15

2020-10-28 11:54:05

AI 數(shù)據(jù)人工智能

2024-02-22 16:50:50

2009-05-07 18:50:35

四核Nehalem服務(wù)器

2016-04-27 11:01:11

SparkStormApache Apex

2024-10-05 12:20:00

2023-09-05 12:59:33

模型數(shù)據(jù)

2023-04-19 07:34:21

AutoGPT程序員GitHub

2014-01-17 14:08:45

移動os國產(chǎn)軟件

2023-02-21 21:48:29

2011-05-04 15:09:56

激光打印機奔圖科技
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩一区二区三区在线 | 在线观看精品视频网站 | 九九精品影院 | 农村妇女毛片精品久久久 | 久久精品天堂 | 麻豆久久久久久久久久 | 亚洲欧美综合 | 精品免费国产一区二区三区 | 国产人免费人成免费视频 | 欧美精品第一页 | www.9191 | 国产成人精品一区二区三区在线观看 | 欧美成人免费电影 | 东方伊人免费在线观看 | 久久久久国产精品一区 | 久久蜜桃av一区二区天堂 | 亚洲永久精品国产 | 精品1区2区| 久久久久久国产精品 | www.亚洲免费| 欧美精品片 | 国产精品免费在线 | 成人久久网 | 亚洲午夜视频 | 国产一区亚洲二区三区 | 国产欧美一区二区三区在线看 | 日韩av手机在线观看 | 成人伊人 | 精品九九| 国产精品视频免费 | 国产精品69久久久久水密桃 | 亚洲一区二区三区免费在线观看 | 91p在线观看| 精品久久久精品 | av在线一区二区三区 | 性色av网站 | 欧美成年网站 | 97伊人 | 久久久www成人免费精品 | 国产精品免费观看视频 | 国产精品免费一区二区 |