成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<big id="66166"><cite id="66166"><li id="66166"></li></cite></big>

<sup id="66166"></sup>

<sub id="66166"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

3D大模型助力，15分鐘即可訓(xùn)練高質(zhì)量、個(gè)性化的數(shù)字人模型，代碼已開(kāi)放

作者：機(jī)器之心 2024-10-31 14:00:00

人工智能新聞

MimicTalk 模型首次實(shí)現(xiàn)了高效率的個(gè)性化精品數(shù)字人視頻合成?？梢灶A(yù)見(jiàn)的是，隨著技術(shù)的不斷迭代、普及，在智能助手、虛擬現(xiàn)實(shí)、視頻會(huì)議等多個(gè)應(yīng)用場(chǎng)景中都將會(huì)出現(xiàn)虛擬人的身影。

本文的作者主要來(lái)自于浙江大學(xué)和字節(jié)跳動(dòng)。第一作者是浙江大學(xué)計(jì)算機(jī)學(xué)院的博士生葉振輝，導(dǎo)師為趙洲教授，主要研究方向是說(shuō)話人視頻合成，并在 NeurIPS、ICLR、ACL 等會(huì)議發(fā)表相關(guān)論文。共一作者是來(lái)自浙江大學(xué)計(jì)算機(jī)學(xué)院的碩士生鐘添蕓。

個(gè)性化精品數(shù)字人（Personalized Talking Face Generation）強(qiáng)調(diào)合成的數(shù)字人視頻在感官上與真人具有極高的相似性（不管是說(shuō)話人的外表還是神態(tài)）。目前業(yè)界主流的個(gè)性化精品數(shù)字人通常屬于在單個(gè)目標(biāo)人數(shù)據(jù)上從頭訓(xùn)練的小模型，雖然這種小模型能夠有效地學(xué)到說(shuō)話人的外表和說(shuō)話風(fēng)格，這種做法存在低訓(xùn)練效率、低樣本效率、低魯棒性的問(wèn)題。相比之下，近年來(lái)許多工作專(zhuān)注于單圖驅(qū)動(dòng)的通用數(shù)字人大模型，這些模型僅需單張圖片輸入即可完成數(shù)字人制作，但仍存在外表相似度較低、無(wú)法模仿目標(biāo)人說(shuō)話風(fēng)格等問(wèn)題。

為了連接個(gè)性化數(shù)字人小模型和單圖驅(qū)動(dòng)通用數(shù)字人大模型兩個(gè)領(lǐng)域之間的空白，浙江大學(xué)與字節(jié)跳動(dòng)提出了 MimicTalk 算法。通過(guò)（1）將單圖驅(qū)動(dòng)的通用 3D 數(shù)字人大模型 Real3D-Portrait (ICLR 2024) 適應(yīng)到目標(biāo)數(shù)字人的高效微調(diào)策略和（2）具有上下文學(xué)習(xí)能力的人臉動(dòng)作生成模型，MimicTalk 可以生成相比原有方法更高質(zhì)量、更具表現(xiàn)力的數(shù)字人視頻。此外，單個(gè)數(shù)字人模型的訓(xùn)練時(shí)間可以被壓縮到 15 分鐘以內(nèi)，相比現(xiàn)有最高效的同類(lèi)方法快了 47 倍。

MimicTalk 算法被人工智能頂級(jí)會(huì)議 NeurIPS 2024 錄用，目前已開(kāi)放源代碼和預(yù)訓(xùn)練權(quán)重。

論文標(biāo)題：MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes
論文鏈接：https://arxiv.org/pdf/2410.06734
項(xiàng)目主頁(yè)：https://mimictalk.github.io/
代碼鏈接：https://github.com/yerfor/MimicTalk

話不多說(shuō)直接看效果，以下視頻中的數(shù)字人模型都通過(guò)從 3D 數(shù)字人大模型進(jìn)行 1000 步微調(diào)（5 分鐘訓(xùn)練時(shí)間）得到。

模型技術(shù)原理

深悉 MimicTalk 模型的內(nèi)在原理，還要回到開(kāi)頭提到的個(gè)性化數(shù)字人兩個(gè)核心目標(biāo)：（1）外表上與真人相似；（2）說(shuō)話風(fēng)格上與真人相似。

MimicTalk 分別使用（1）基于通用 3D 數(shù)字人大模型微調(diào)的高質(zhì)量人臉?shù)秩酒骱停?）一個(gè)具有上下文學(xué)習(xí)能力的人臉動(dòng)作生成模型來(lái)實(shí)現(xiàn)它們。

圖 2. MimicTalk 包含一個(gè)高質(zhì)量人臉?shù)秩酒鳎ㄗ仙┖鸵粋€(gè)能夠模仿說(shuō)話風(fēng)格的動(dòng)作生成器（藍(lán)色）

對(duì)于第一個(gè)問(wèn)題，傳統(tǒng)方法通常從頭訓(xùn)練一個(gè)小規(guī)模的 NeRF 模型來(lái)記憶目標(biāo)人的外表特征，但這種做法通常導(dǎo)致較長(zhǎng)的訓(xùn)練時(shí)間（數(shù)個(gè)小時(shí)）、較高的數(shù)據(jù)量要求（數(shù)分鐘）、較低的魯棒性（對(duì)極端條件無(wú)法輸出正確的結(jié)果）。針對(duì)這一問(wèn)題，團(tuán)隊(duì)首次提出采用一個(gè)單圖驅(qū)動(dòng)的通用 3D 數(shù)字人大模型作為基礎(chǔ)模型，并提出了一個(gè)「動(dòng)靜結(jié)合」的高效率微調(diào)方案。

他們發(fā)現(xiàn)通用大模型的輸出通常存在牙齒、頭發(fā)等靜態(tài)細(xì)節(jié)不足，且肌肉運(yùn)動(dòng)等動(dòng)態(tài)細(xì)節(jié)不真實(shí)的問(wèn)題。因此針對(duì)靜態(tài)細(xì)節(jié)和動(dòng)態(tài)細(xì)節(jié)的特性設(shè)計(jì)了動(dòng)靜結(jié)合的微調(diào)方案。

具體來(lái)說(shuō)，研究者發(fā)現(xiàn)現(xiàn)有的 3D 數(shù)字人通用模型通常會(huì)將 3D 人臉的靜態(tài)細(xì)節(jié)儲(chǔ)存在一個(gè) 3D 人臉表征（tri-plane）中作為模型的輸入，而 3D 人臉的動(dòng)態(tài)細(xì)節(jié)，則通過(guò)模型內(nèi)部的參數(shù)進(jìn)行儲(chǔ)存。因此，MimicTalk 在個(gè)性化數(shù)字人渲染器的訓(xùn)練過(guò)程中，不僅會(huì)更新儲(chǔ)存靜態(tài)細(xì)節(jié)的 3D 人臉表征，還通過(guò) LoRA 技術(shù)對(duì)通用模型的參數(shù)進(jìn)行了可拆卸的高效微調(diào)。

圖 2. 將通用 3D 數(shù)字人大模型適應(yīng)到單個(gè)目標(biāo)人，動(dòng)靜結(jié)合的高效微調(diào)方案

在實(shí)現(xiàn)圖像上與真人的高度相似后，下一個(gè)問(wèn)題是如何生成與真人說(shuō)話風(fēng)格相似的面部動(dòng)作。傳統(tǒng)方法通常會(huì)額外訓(xùn)練一個(gè)說(shuō)話風(fēng)格編碼器，但是由于模型內(nèi)部信息瓶頸的存在通常會(huì)性能損失。與之相比，受啟發(fā)大語(yǔ)言模型、語(yǔ)音合成等領(lǐng)域的啟發(fā)，MimicTalk 首次提出從上下文中學(xué)習(xí)目標(biāo)人說(shuō)話風(fēng)格的訓(xùn)練范式。在訓(xùn)練階段，F(xiàn)low Matching 模型通過(guò)語(yǔ)音軌道和部分未被遮擋的人臉動(dòng)作軌道的信息，對(duì)被遮擋的人臉動(dòng)作進(jìn)行去噪。在推理階段，給定任意音頻 - 視頻對(duì)作為說(shuō)話人風(fēng)格提示，模型都能生成模仿該說(shuō)話風(fēng)格的人臉動(dòng)作。

圖 3. 能在上下文中學(xué)習(xí)目標(biāo)人說(shuō)話風(fēng)格的人臉動(dòng)作生成模型

模型的應(yīng)用前景

總體來(lái)看，MimicTalk 模型首次實(shí)現(xiàn)了高效率的個(gè)性化精品數(shù)字人視頻合成。可以預(yù)見(jiàn)的是，隨著技術(shù)的不斷迭代、普及，在智能助手、虛擬現(xiàn)實(shí)、視頻會(huì)議等多個(gè)應(yīng)用場(chǎng)景中都將會(huì)出現(xiàn)虛擬人的身影。而借助 MimicTalk 算法，個(gè)性化高質(zhì)量數(shù)字人的訓(xùn)練成本被「打了下去」，人們將會(huì)享受到更真實(shí)、更舒適的交互體驗(yàn)。隨著各個(gè)領(lǐng)域的大模型技術(shù)的興起，擁抱大模型的超強(qiáng)能力并與垂直領(lǐng)域中的特殊場(chǎng)景、需求相結(jié)合，已經(jīng)成為了技術(shù)演進(jìn)的大勢(shì)所趨。而 MimicTalk 模型為后續(xù)基于數(shù)字人通用模型的個(gè)性化數(shù)字人算法研究工作提供了參考。但現(xiàn)階段 MimicTalk 也并不是完美無(wú)缺的，由于依賴通用大模型的結(jié)果作為初始化，對(duì)基礎(chǔ)模型的質(zhì)量有較高的要求，此外從推理效率上看與現(xiàn)有小模型還存在一定差距。

總而言之，過(guò)去幾年，隨著個(gè)性化數(shù)字人技術(shù)的不斷進(jìn)步，口型精度、圖像質(zhì)量已然不斷提高；而 MimicTalk 模型的提出，進(jìn)一步解決了制約個(gè)性化數(shù)字人的訓(xùn)練成本問(wèn)題。讓我們一同期待虛擬人技術(shù)的加速發(fā)展，用戶也將獲得更加極致的視覺(jué)體驗(yàn)和生活便利。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：亚洲a在线观看 | 国产精品亚洲片在线播放 | 羞羞色在线观看 | 777zyz色资源站在线观看 | av一级久久| 亚洲区一| 日本午夜网站 | 在线成人免费视频 | 日日夜夜草 | 久色一区| 中文字幕在线看第二 | 九九九视频| 9999精品视频 | 91精品久久久久久久久久入口 | 欧美日韩国产一区二区三区 | 久久综合九色综合欧美狠狠 | 青青草一区二区三区 | 久久久久国产一区二区三区四区 | 日韩欧美二区 | 天天影视色综合 | 日韩欧美国产综合 | 啪啪免费网站 | 中文字幕视频在线观看 | 久久国产精品色av免费观看 | 欧美日韩专区 | 国产大毛片 | 久久婷婷色 | 亚洲视频中文字幕 | 日批日韩在线观看 | 祝你幸福电影在线观看 | 91精品一区二区 | 日日夜夜天天干 | 亚洲一区精品视频 | 日韩一区二区三区在线观看 | 黄色欧美在线 | 黄色片大全在线观看 | 国产精品久久久久久久久久三级 | 99这里只有精品视频 | 精品视频一区二区三区 | 国家一级黄色片 | 欧美高清性xxxxhdvideosex |

<font id="11116"></font>

<form id="11116"></form>