成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

李飛飛團隊統一動作與語言，新的多模態模型不僅超懂指令，還能讀懂隱含情緒

作者：機器之心 2024-12-18 14:00:00

人工智能新聞

近日，斯坦福大學李飛飛、Gordon Wetzstein 和 Ehsan Adeli 領導的一個團隊也在這方面做出了貢獻，探索了語音 - 文本 - 動作生成任務。

人類的溝通交流充滿了多模態的信息。為了與他人進行有效溝通，我們既使用言語語言，也使用身體語言，比如手勢、面部表情、身體姿勢和情緒表達。因此，為了理解和生成人類動作，理解這些多模態的行為至關重要，而且這一研究方向最近受到的關注也越來越多。

而多模態語言模型看起來頗具潛力，可將多種模態的不同任務統一在一個框架下。

近日，斯坦福大學李飛飛、Gordon Wetzstein 和 Ehsan Adeli 領導的一個團隊也在這方面做出了貢獻，探索了語音 - 文本 - 動作生成任務。并且他們還提出了一個全新的多模態語言模型，可以實現富有表現力的動作生成和理解。

這個模型可以同時接受音頻和文本輸入來生成動作。比如你指定這個人下半身的動作是繞圈走，并根據語音生成上半身動作，它就會配合你生成對應的動作。

更重要的是，它支持動作編輯，可以將原本的繞圈走動更換為其他動作序列（如后退、跳躍、前跑、后跑等）。更換了動作指令，模型生成的動作依然自然流暢，并與語音內容保持良好的協調性。

很顯然，這項研究對于李飛飛的長遠「空間智能」目標大有裨益。這項研究有三位共同一作：Changan Chen（陳昌安）、Juze Zhang 和 Shrinidhi K. Lakshmikanth。

論文標題：The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
論文地址：https://arxiv.org/abs/2412.10523v1
項目頁面：https://languageofmotion.github.io/

論文概覽

首先，該團隊指出，為了統一人類動作的言語和非言語語言，語言模型是至關重要的。他們給出了三點原因：

語言模型能自然地與其它模態連接起來；
語音富含語義，而「建模因笑話而發出的笑聲」這樣的任務需要強大的語義推理能力；
經過大量預訓練之后，語言模型能夠具備強大的語義理解能力。

基于這樣的理解，該團隊打造出了一種全新的多模態語言模型，如圖 1 所示。

為了使用語言模型來建模動作，首先自然要想辦法將動作變成 token。該團隊的做法是針對不同的身體部位（臉、手、上身、下身）來實現動作的 token 化。事實上，之前已有研究表明，這種劃分策略在建模人臉表情方面確實很有效。

之后，再搭配上現成可用的文本和語音 token 化策略，就可以將任何模態的輸入都表示成 token 了。

為了訓練這個使用多種模態的 token 的語言模型，該團隊設計了一個兩階段式訓練流程：

首先，進行預訓練，目標是通過身體組合動作對齊與音頻 - 文本對齊來對齊各種不同的模態。
預訓練完成后，將下游任務編譯成指令，并根據這些指令訓練模型，使模型能夠遵循各種任務指令。

該團隊自然也進行了實驗驗證，結果發現新方法得到的多模態語言模型確實比其它 SOTA 模型更優。不僅如此，他們還發現，在嚴重缺乏數據的情況下，這種預訓練策略的優勢更為明顯。

與其他伴語手勢生成模型的效果對比

與其他文生動作模型的效果對比

盡管該模型在預訓練期間從未見過語音 - 動作數據，但在用于數據相對較少的全新說話人時，它依然達到了頗具競爭力的性能，表現出了顯著的泛化能力。

該團隊表示：「就我們所知，這是首個構建多模態語言模型來統一 3D 人體動作的言語和非語言語言的工作?！?/span>

用于動作生成和理解的多模態語言模型

模型的整體結構如下圖 2 所示。

作者使用針對特定模態的 tokenizer 來處理各種輸入模態。具體來說，他們訓練了一個組合式的身體動作 VQ-VAE，將面部、手部、上半身和下半身的動作 token 化為離散的 token，并將這些針對特定模態的詞匯表（音頻和文本）合并成一個統一的多模態詞匯表。

在訓練過程中，他們使用來自不同模態的混合 token 作為輸入，并通過編碼器 - 解碼器語言模型生成輸出?；旌?token 被送入 transformer 編碼器，而解碼器則在每一步以自回歸的方式預測下一個 token 的概率分布。

模態對齊預訓練

現有的動作生成模型在針對下游任務訓練時嚴重依賴成對數據。然而，收集高質量的成對動作數據既昂貴又耗時。與此同時，還有大量未配對的每種模態的數據可供探索。受此啟發，作者引入了一個生成式預訓練策略，如圖 3 所示。具體來說，他們在預訓練階段實施了兩種類型的模態對齊：組合動作對齊和音頻 - 文本對齊。

1、組合動作對齊

我們的身體動作本質上是組合性的，即不同的身體部位是相互協調動作的。例如，當我們高興時，我們的面部會展現出微笑，我們的手勢也傾向于變得更加積極。不同身體部位動作之間的相關性是普遍的，超越了文化界限。這種共享的先驗知識構成了論文所提方法的基礎。為了探索這種對應關系，作者考慮了兩種類型的動作對齊任務：空間和時間。

空間

為了建模這些不同身體部位之間的相關性，作者訓練模型接收隨機選擇的身體部位組合（例如，上半身或上半身 + 面部）并預測另一個隨機選擇的其他身體部位組合（例如，下半身或下半身 + 手部）。這有助于模型學習身體部位之間的空間關系。下面是一個定義任務提示、條件和答案的示例模板。模型接收提示和條件作為輸入，并按預期輸出答案。

時間

預測動作如何隨時間變化也是一個重要的自監督任務，它使模型能夠捕捉動作的時間演變。作者通過隨機遮蓋（mask）某些動作幀來建模這一點，以幫助模型學習動作的時間先驗。

2、音頻 - 文本對齊

除了動作模態，作者還設計了音頻和文本模態之間的翻譯任務，以利用大量可用的數據。這些任務遵循「從模態 X 預測模態 Y」的格式。例如，「從音頻預測文本」應該通過將音頻嵌入映射到預訓練良好的文本嵌入空間，來幫助模型提升「從音頻預測動作」方面的性能。

指令遵循后訓練

預訓練之后，模型獲得了對動作模態詞匯中潛在的語法和句法的理解，以及音頻和文本模態之間的良好對齊。然后他們使用成對數據在下游任務上對模型進行微調，例如伴語手勢（co-speech gesture）生成或文本到動作生成。為了使模型在遵循自然人類指令的同時執行所需的下游任務，作者構建了一個多任務指令跟隨模板，將幾個關鍵任務（如音頻到動作、文本到動作和情感到動作）格式化為指令。

具體來說，對于每個任務，他們編寫了數十種不同的指令模板，結果產生了超過一千個不同的任務，每個任務都有其獨特的指令提示。下面展示了一個指令模板示例。

實驗結果

伴語手勢生成

該團隊在 BEATv2 數據集上評估模型的音頻到動作生成能力。他們使用了 BEATv2 和 Librispeech 兩個數據集（總共包含 1000 小時音頻 - 文本數據和 60 小時動作數據）來訓練模型（在預訓練中，他們確保模型不會看到任何音頻到動作的數據），并在特定說話者的數據上進行測試。他們通過三個指標來評估模型效果：手勢的真實性（FGD）、與語音的同步性（BC）以及動作的多樣性（Diversity），以全面衡量模型的表現。

實驗結果顯示，該模型在所有指標上均優于現有方法。得益于預訓練語言模型的語義理解能力，無需額外特征輔助即可達到良好效果。實驗證明，語言預訓練和多模態預訓練對模型性能至關重要，移除任一環節都會導致性能顯著下降。圖 4 展示的定性結果表明，模型能生成與語音同步的自然手勢動作。

生成式預訓練的效果

由于為說話者收集動作數據既耗時又依賴專業設備，研究團隊首先驗證了各個預訓練任務的重要性，然后探究生成式預訓練能否提升模型在新說話者上的泛化能力，從而減少所需的訓練數據量。

為此，他們分別移除了音頻 - 文本對齊任務 (w/o A2T)、空間身體動作對齊任務 (w/o spatial)、時序身體動作對齊任務 (w/o temporal) 以及整體身體對齊任務 (w/o motion)。

表 1 展示了實驗結果。(w/o A2T) 降低了模型性能，說明音頻與文本嵌入空間的對齊有助于語義理解和手勢生成任務。移除空間動作預測、時序動作預測或同時移除兩者都會損害模型的性能。這表明在預訓練階段，學習時空動作先驗對下游任務很重要。

基于這些發現，該團隊假設預訓練策略可以捕獲強大的多模態關聯和動作先驗，從而減少下游任務對配對數據的依賴。

為驗證這一假設，研究團隊遵循上一節中的設置，在預訓練階段限制模型可用的訓練數據量。值得注意的是，在模型的預訓練階段，研究團隊沒有使用任何音頻和對應動作的配對數據（即音頻 - 動作對）來訓練模型。研究團隊將數據量設為 1/2^n (n∈[1...5])，并在每種設置下訓練完整模型、無預訓練模型和 EMAGE 基線直至收斂，并在相同測試集上評估。

實驗結果如圖 5 所示。僅使用 1/32 的配對訓練數據，該團隊的完整模型相比無預訓練模型，FGD 分數更低。隨著配對微調數據量增加，性能差距雖有所減小，但完整模型始終優于無預訓練模型和 EMAGE 基線。這證明了預訓練的價值以及模型在極度缺乏數據時的出色泛化能力。

統一音頻和文本的可編輯動作生成

這個模型可以同時接受音頻和文本輸入來生成動作。首先，在 BEATv2 和 AMASS 兩個動作數據集上訓練動作分詞器。預訓練和后訓練階段分別采用統一的任務設置，后訓練階段整合了音頻到動作和文本到動作的指令，文本部分使用 HumanML3D 的標注數據。

這種雙重輸入的設計讓模型具備了可編輯動作生成的能力。模型可以根據語音內容和文本指令生成全身動作，比如生成一個邊走邊說話的人物動作。研究團隊還實現了分別控制不同身體部位的動作，并能將它們自然地組合在一起。這項技術對游戲和 VR 等應用有重要價值。圖 6 展示了幾個實際 demo，說明模型能夠準確響應音頻和文本的雙重指令。

根據動作預測情緒

憑借靈活的輸入 / 輸出模態，這種新的多模態語言模型還在一些新任務上展現出了出色的能力，比如不同身體部位或模態之間的轉譯。

該團隊提出了一個新任務來考驗這個新模型：根據動作預測情緒，也就是閱讀人的肢體語言。

為此，他們提取了 BEATv2 的情緒標簽（中性、憤怒、快樂、恐懼、厭惡、悲傷、輕蔑和驚訝），并將其轉換為了訓練指令。結果見表 3。

在這項任務上，MotionGPT 完全失敗，其表現與隨機亂猜差不多，因為它的訓練目標就只是描述一般動作，而不是細微的手勢動作和肢體語言。新模型的表現遠遠優于隨機和 MotionGPT，這表明其能夠根據動作預測情緒。以下動圖展示了一個示例。

責任編輯：張燕妮來源：機器之心

模型數據訓練

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美一区二区三区电影 | 日本免费一区二区三区 | 国产97色 | 亚洲电影一区二区三区 | 国产一区欧美一区 | 精品中文字幕一区二区三区 | 亚洲成人自拍网 | 国产美女久久 | 91久久视频 | 在线免费观看毛片 | 亚洲午夜精品在线观看 | 欧美精品福利视频 | 日韩国产免费观看 | 国产美女永久免费无遮挡 | 欧美成人一区二区三区 | 中文字幕国产精品 | 一区二区三区欧美在线 | 亚洲欧美激情视频 | 黄在线| 亚洲天堂一区 | 欧美视频成人 | 日韩有码在线观看 | 国产精品久久精品 | 成人不卡 | 99视频在线免费观看 | jizz中国日本 | 国产精品毛片av一区 | 午夜精品久久久久久久久久久久久 | 亚洲精品视频在线播放 | 久久国色 | 日韩视频免费 | 国产成人精品久久 | 日本在线网站 | 五月精品视频 | 老妇激情毛片免费 | 国产区视频在线观看 | 日韩国产黄色片 | h在线免费观看 | 精品一区二区三区91 | 国产中文在线 | 国产成人精品一区二区三 |

<ul id="e68mo"></ul>

<table id="e68mo"><rt id="e68mo"></rt></table>