成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人物交互圖像,現(xiàn)在更懂你的提示詞了,北大推出基于語(yǔ)義感知的人物交互圖像生成框架

人工智能 新聞
來(lái)自北京大學(xué)的研究團(tuán)隊(duì)提出了一種姿勢(shì)和交互感知的人物交互圖像生成框架(SA-HOI), 利用人體姿勢(shì)的生成質(zhì)量和交互邊界區(qū)域信息作為去噪過(guò)程的指導(dǎo),生成了更合理,更真實(shí)的人物交互圖像。

該論文的第一作者和通訊作者均來(lái)自北京大學(xué)王選計(jì)算機(jī)研究所的 MIPL實(shí)驗(yàn)室,第一作者為博士生徐鑄,通訊作者為博士生導(dǎo)師劉洋。MIPL 實(shí)驗(yàn)室近年來(lái)在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等頂會(huì)上有多項(xiàng)代表性成果發(fā)表,多次榮獲國(guó)內(nèi)外 CV 領(lǐng)域重量級(jí)競(jìng)賽的冠軍獎(jiǎng)項(xiàng),和國(guó)內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開(kāi)展合作。

人物交互圖像生成指生成滿足文本描述需求,內(nèi)容為人與物體交互的圖像,并要求圖像盡可能真實(shí)且符合語(yǔ)義。近年來(lái),文本生成圖像模型在生成真實(shí)圖像方面取得出了顯著的進(jìn)展,但這些模型在生成以人物交互為主體內(nèi)容的高保真圖像生成方面仍然面臨挑戰(zhàn)。其困難主要源于兩個(gè)方面:一是人體姿勢(shì)的復(fù)雜性和多樣性給合理的人物生成帶來(lái)挑戰(zhàn);二是交互邊界區(qū)域(交互語(yǔ)義豐富區(qū)域)不可靠的生成可能導(dǎo)致人物交互語(yǔ)義表達(dá)的不足。

針對(duì)上述問(wèn)題,來(lái)自北京大學(xué)的研究團(tuán)隊(duì)提出了一種姿勢(shì)和交互感知的人物交互圖像生成框架(SA-HOI), 利用人體姿勢(shì)的生成質(zhì)量和交互邊界區(qū)域信息作為去噪過(guò)程的指導(dǎo),生成了更合理,更真實(shí)的人物交互圖像。為了全面測(cè)評(píng)生成圖像的質(zhì)量,他們還提出了一個(gè)全面的人物交互圖像生成基準(zhǔn)。

圖片

  • 論文鏈接:https://proceedings.mlr.press/v235/xu24e.html
  • 項(xiàng)目主頁(yè):https://sites.google.com/view/sa-hoi/
  • 源代碼鏈接:https://github.com/XZPKU/SA-HOI
  • 實(shí)驗(yàn)室主頁(yè):http://www.wict.pku.edu.cn/mipl

SA-HOI 是一種語(yǔ)義感知的人物交互圖像生成方法,從人體姿態(tài)和交互語(yǔ)義兩方面提升人物交互圖像生成的整體質(zhì)量并減少存在的生成問(wèn)題。通過(guò)結(jié)合圖像反演的方法,生成了迭代式反演和圖像修正流程,可以使生成圖像逐步自我修正,提升質(zhì)量。

研究團(tuán)隊(duì)在論文中還提出了第一個(gè)涵蓋人 - 物體、人 - 動(dòng)物和人 - 人交互的人物交互圖像生成基準(zhǔn),并為人物交互圖像生成設(shè)計(jì)了針對(duì)性的評(píng)估指標(biāo)。大量實(shí)驗(yàn)表明,該方法在針對(duì)人物交互圖像生成的評(píng)估指標(biāo)和常規(guī)圖像生成的評(píng)估指標(biāo)下均優(yōu)于現(xiàn)有的基于擴(kuò)散的圖像生成方法。

方法介紹

圖片

圖 1:語(yǔ)義感知的人物交互圖像生成方法框架圖

論文中提出的方法如圖 1 所示,主要由兩個(gè)設(shè)計(jì)組成:姿態(tài)和交互指導(dǎo)(Pose and Interaction Guidance, PIG)和迭代反演和修正流程(Iterative Inversion and Refinement Pipeline, IIR)。

在 PIG 中,對(duì)于給定的人物交互文本描述圖片和噪聲圖片,首先使用穩(wěn)定擴(kuò)散模型(Stable Diffusion [2])生成圖片作為初始圖像,并使用姿態(tài)檢測(cè)器 [3] 獲取人類體關(guān)節(jié)位置圖片 和相應(yīng)的置信分?jǐn)?shù) 圖片 , 構(gòu)建姿態(tài)掩碼 圖片 高亮低質(zhì)量姿態(tài)區(qū)域。

對(duì)于交互指導(dǎo),利用分割模型定位交互邊界區(qū)域,得到關(guān)鍵點(diǎn)圖片和相應(yīng)的置信分?jǐn)?shù)圖片, 并在交互掩碼圖片中高亮交互區(qū)域,以增強(qiáng)交互邊界的語(yǔ)義表達(dá)。對(duì)于每個(gè)去噪步驟,圖片 和 圖片 作為約束來(lái)對(duì)這些高亮的區(qū)域進(jìn)行修正,從而減少這些區(qū)域中存在的生成問(wèn)題。此外, IIR 結(jié)合圖像反演模型 N,從需要進(jìn)一步修正的圖像中提取噪聲 n 和文本描述的嵌入 t,然后使用 PIG 對(duì)該圖像進(jìn)行下一次修正,利用質(zhì)量評(píng)估器 Q 對(duì)修正后的圖像質(zhì)量進(jìn)行評(píng)估,以 < 反饋、評(píng)估、修正 > 的操作來(lái)逐步提高圖像質(zhì)量。

姿態(tài)和交互指導(dǎo)

圖片

圖 2:姿勢(shì)和交互指導(dǎo)采樣偽代碼

姿勢(shì)和交互引導(dǎo)采樣的偽代碼如圖 2 所示,在每個(gè)去噪步驟中,我們首先按照穩(wěn)定擴(kuò)散模型(Stable Diffusion)中的設(shè)計(jì)獲取預(yù)測(cè)的噪聲 ?t 和中間重構(gòu) 。然后我們?cè)?上應(yīng)用高斯模糊 G 來(lái)獲得退化的潛在特征 和 ,隨后將對(duì)應(yīng)潛在特征中的信息引入去噪過(guò)程中。

圖片 和 圖片 被用于生成 圖片 圖片,并在 圖片 和 圖片 中突出低姿勢(shì)質(zhì)量區(qū)域,指導(dǎo)模型減少這些區(qū)域的畸變生成。為了指導(dǎo)模型改進(jìn)低質(zhì)量區(qū)域,將通過(guò)如下公式來(lái)高亮低姿勢(shì)得分區(qū)域:

圖片

其中 圖片,x、y 是圖像的逐像素坐標(biāo),H,W 是圖像大小,σ 是高斯分布的方差。圖片 表示以第 i 個(gè)關(guān)節(jié)為中心的注意力,通過(guò)結(jié)合所有關(guān)節(jié)的注意力,我們可以形成最終的注意力圖圖片,并使用閾值將 圖片 轉(zhuǎn)換為一個(gè)掩碼 圖片

其中 ?t 是在時(shí)間步 t 生成掩碼的閾值。類似地,對(duì)于交互指導(dǎo),論文作者利用分割模型得到物體的外輪廓點(diǎn) O 以及人體關(guān)節(jié)點(diǎn) C,計(jì)算人與物體之間的距離矩陣 D,從中采樣得到交互邊界的關(guān)鍵點(diǎn) 圖片,利用和姿勢(shì)指導(dǎo)相同的方法生成交互注意力 圖片與掩碼 圖片,并應(yīng)用于計(jì)算最終的預(yù)測(cè)噪聲。

迭代式反演和圖像修正流程

為了實(shí)時(shí)獲取生成圖像的質(zhì)量評(píng)估,論文作者引入質(zhì)量評(píng)估器 Q,用于作為迭代式 < 評(píng)估 + 修正 > 操作的指導(dǎo)。對(duì)于第 k 輪的圖像圖片 ,采用評(píng)估器 Q 獲取其質(zhì)量分?jǐn)?shù)圖片 ,然后基于 圖片 生成圖片。為了在優(yōu)化后保留圖片 的主要內(nèi)容,需要相應(yīng)的噪聲作為去噪的初始值。

然而,這樣的噪聲不是現(xiàn)成可得的,為此引入圖像反演方法圖片來(lái)獲取其噪聲潛在特征圖片 和文本嵌入圖片,作為 PIG 的輸入,生成優(yōu)化后的結(jié)果圖片。

通過(guò)比較前后迭代輪次中的質(zhì)量分?jǐn)?shù),可以判斷是否要繼續(xù)進(jìn)行優(yōu)化:當(dāng)圖片和 圖片 之間沒(méi)有顯著差異,即低于閾值 θ,可以認(rèn)為該流程可能已經(jīng)對(duì)圖像做出了充足的修正,因此結(jié)束優(yōu)化并輸出質(zhì)量分?jǐn)?shù)最高的圖像。

人物交互圖像生成基準(zhǔn)

圖片

圖 3:人物交互圖像生成基準(zhǔn)(數(shù)據(jù)集 + 測(cè)評(píng)指標(biāo))

考慮到?jīng)]有針對(duì)人物交互圖像生成任務(wù)設(shè)計(jì)的現(xiàn)有模型和基準(zhǔn),論文作者收集并整合了一個(gè)人物交互圖像生成基準(zhǔn),包括一個(gè)含有 150 個(gè)人物交互類別的真實(shí)人物交互圖像數(shù)據(jù)集,以及若干為人物交互圖像生成定制的測(cè)評(píng)指標(biāo)。

該數(shù)據(jù)集從開(kāi)源人物交互檢測(cè)數(shù)據(jù)集 HICO-DET [5] 中篩選得到 150 個(gè)人物交互類別,涵蓋了人 - 物體、人 - 動(dòng)物和人 - 人三種不同交互場(chǎng)景。共計(jì)收集了 5k 人物交互真實(shí)圖像作為該論文的參考數(shù)據(jù)集,用于評(píng)估生成人物交互圖像的質(zhì)量。

為了更好地評(píng)估生成的人物交互圖像質(zhì)量,論文作者為人物交互生成量身定制了幾個(gè)測(cè)評(píng)標(biāo)準(zhǔn),從可靠性 (Authenticity)、可行性 (Plausibility) 和保真度 (Fidelity) 的角度全面評(píng)估生成圖像。可靠性上,論文作者引入姿勢(shì)分布距離和人 - 物體距離分布,評(píng)估生成結(jié)果和真實(shí)圖像是否接近:生成結(jié)果在分布意義上越接近真實(shí)圖像,就說(shuō)明質(zhì)量越好??尚行陨希捎糜?jì)算姿勢(shì)置信度分?jǐn)?shù)來(lái)衡量生成人體關(guān)節(jié)的可信度和合理性。保真度上,采用人物交互檢測(cè)任務(wù),以及圖文檢索任務(wù)評(píng)估生成圖像與輸入文本之間的語(yǔ)義一致性。

實(shí)驗(yàn)結(jié)果

與現(xiàn)有方法的對(duì)比實(shí)驗(yàn)結(jié)果如表 1 和表 2 所示,分別對(duì)比了人物交互圖像生成指標(biāo)和常規(guī)圖像生成指標(biāo)上的性能。

圖片

表 1:與現(xiàn)有方法在人物交互圖像生成指標(biāo)的對(duì)比實(shí)驗(yàn)結(jié)果

圖片

表 2:與現(xiàn)有方法在常規(guī)圖像生成指標(biāo)的對(duì)比實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明,該論文中的方法在人體生成質(zhì)量,交互語(yǔ)義表達(dá),人物交互距離,人體姿態(tài)分布,整體圖像質(zhì)量等多個(gè)維度的測(cè)評(píng)上都優(yōu)于現(xiàn)有模型。

此外,論文作者還進(jìn)行了主觀評(píng)測(cè),邀請(qǐng)眾多用戶從人體質(zhì)量,物體外觀,交互語(yǔ)義和整體質(zhì)量等多個(gè)角度進(jìn)行評(píng)分,實(shí)驗(yàn)結(jié)果證明 SA-HOI 的方法在各個(gè)角度都更符合人類審美。

圖片

表 3:與現(xiàn)有方法的主觀評(píng)測(cè)結(jié)果

定性實(shí)驗(yàn)上,下圖展示了不同方法對(duì)同一個(gè)人物交互類別描述生成結(jié)果的對(duì)比。在上方的組圖中,采用了新方法的模型準(zhǔn)確表達(dá)了 “親吻” 的語(yǔ)義,并且生成的人體姿勢(shì)也更合理。在下方的組圖中,論文中的方法也成功緩解了其他方法中存在的人體扭曲和畸變,并且通過(guò)在手與手提箱交互的區(qū)域生成手提箱的拉桿來(lái)增強(qiáng) “拿手提箱” 這個(gè)交互的語(yǔ)義表達(dá),從而得到在人體姿態(tài)和交互語(yǔ)義兩方面都優(yōu)于其他方法的結(jié)果。

圖片

圖 4:人物交互圖像生成結(jié)果可視化

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2017-02-17 12:30:40

外設(shè)

2017-09-09 06:04:22

深度學(xué)習(xí)人物圖像神經(jīng)網(wǎng)絡(luò)

2023-12-07 10:22:26

人工圖像生成器Meta圖像生成模型

2021-11-02 09:25:00

AI 數(shù)據(jù)人工智能

2024-08-13 15:00:00

大模型提示學(xué)習(xí)

2022-12-18 19:49:45

AI

2017-05-27 14:00:06

深度學(xué)習(xí)人臉建模

2021-07-24 13:20:40

iOS應(yīng)用系統(tǒng)

2015-08-03 09:10:21

編程語(yǔ)言哈利波特

2023-05-16 08:00:00

開(kāi)源項(xiàng)目MONAI醫(yī)學(xué)圖像

2024-05-11 07:00:00

AIIC-LightP照片換背景

2024-08-29 15:05:57

2018-03-09 15:25:47

IOT語(yǔ)義交叉

2024-02-19 13:10:38

模型訓(xùn)練

2014-06-24 09:31:02

信息安全IT安全首席安全官

2022-08-09 08:02:36

Python人物關(guān)系紅樓夢(mèng)

2024-10-24 23:37:33

2025-03-24 10:37:15

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产在线一区二区三区 | 国产精品久久久久久网站 | 国产成人免费视频网站高清观看视频 | 国际精品久久 | 欧美片网站免费 | 国产va | 二区中文字幕 | 精品国产三级 | 欲色av| 国产欧美一区二区三区免费 | 国产91在线 | 亚洲 | 欧美精品91 | 国产精品久久久久久亚洲调教 | 奇米久久久 | 精品成人| 久久久国产一区二区三区 | 精品一二三区视频 | 91精品一区二区三区久久久久久 | 国产精品区一区二 | 久久久久国产一区二区三区 | 亚洲美女一区 | 国产精品亚洲一区二区三区在线观看 | 日本羞羞影院 | 国产三级精品三级在线观看四季网 | 日韩成人在线网址 | 日韩免费网站 | 国产精品久久久久久久久久久久久 | 最新免费视频 | 欧美久久精品一级黑人c片 91免费在线视频 | 国产精品美女在线观看 | 黄色av网站在线观看 | 国产福利二区 | 色婷婷国产精品综合在线观看 | 狠狠av | 亚洲精品一区二区三区四区高清 | 日本激情视频中文字幕 | 日韩中文字幕免费在线 | 亚洲成人精品在线 | 国产视频在线一区二区 | 青青草社区 | 91香蕉|