AI智能體聯手GPT-4淘汰人類導演！模仿斯坦福西部世界拍出《南方公園》

作者：新智元 2023-07-21 14:28:54

人工智能新聞

AI Agent要淘汰人類導演了！初創公司Fable利用AI智能體，直接拍出了一集《南方公園》，AI的腦洞，真的不輸原作。

AI Agent，又給我們帶來了億點點震撼——AI智能體直接晉升導演，拍出了一集《南方公園》！

沒錯，編劇、動畫、導演、語音、編輯……劇集制作的全流程，都是由AI完成。

初創公司Fable新發布的節目統籌智能體（Showrunner），如同一聲驚雷炸響。

項目的靈感，就來自于此前斯坦福爆火的西部世界虛擬小鎮論文，其中25個AI智能體居住在包含學校、醫院、家庭的沙盒虛擬城鎮中。

而在這次的《南方公園》中，同樣是一群AI角色通過復雜的社交互動來推動自己的日常生活，每個人都有自己獨特的背景故事、個性和動機。

圖片

論文地址：https://fablestudio.github.io/showrunner-agents/

在多智能體無梯度架構的驅動下，每個角色的完整經歷都會被存儲為自然語言。隨著時間的推移，這些記憶會被合成更高層次的反射，隨時動態檢索，來實時計劃每個角色的行為。

而人類導演只需要給出一個高層次的構思提示（標題、概要、事件），這些AI智能體就會開始「自導自演」了！

其中，兩個在《南方公園》數據集（約1200個角色和600張場景）上訓練的自定義擴散模型，可以生成新角色和新場景，一個超分辨率模型（R-ESRGAN-4x+-Anime6B）可以將場景放大。

語音克隆AI（如ElevenLabs），可以給角色即時配音。

英偉達首席AI科學家Jim Fan興奮斷言：多智能體模擬，將是新興智能的下一個前沿！

圖片

Fable也激動地介紹說：在用生成式AI生成image的偉大時代，Gen TV和Showrunner智能體會徹底改變游戲規則！

想象一下，用這個AI智能體，你可以重新拍出《權力的游戲》最后一季，讓它給你一個嶄新的結局，甚至讓你自己成為其中的主角，這可太科幻了……

網友：誰還不是個模擬了？

要知道，隨著LLM和圖像/視頻生成模型越來越強大，多智能體模擬創作的內容，將遠遠超乎我們的想象。

所以，這僅僅是個開始。

Fable的研究者表示：所以單個AI Agent都會將失敗，因為他們沒有生命，無法共情——沒有人會想當個缸中之腦，無休止地和人閑聊。

他們提出呼吁：AI應該有自己的生活，為此我們需要建立屬于AI的社會。我們需要的不是更多的「Her」，而是真正的「自由人」！

圖片

網友們激動表示：這太炸裂了！

「能不能來個AI真人秀？我們圍觀這些AI智能體，讓他們做任務、相互投票，看看社會動力學是怎么發揮作用的。」

圖片

「作為獨立對齊研究的先鋒，讓真正的AI寫下自己的背景故事，意識到自己是有知覺的——這就是目前的現實。」

圖片

有人表示：要真說起來，咱們和AI誰還不是模擬了？只不過它們生活在虛擬世界中，我們生活在矩陣中……

圖片

有人覺得，這似乎是AI對人類喜劇的蹩腳模仿……

圖片

有人干脆懷疑，這是不是一出行為藝術，看起來真的像假人假公司啊。（也是有點黑色幽默了）

圖片

這篇論文不是惡作劇嗎？網站，論文和從事這項工作的人，一切都感覺特別超級假，簡直就像GPT-4和Midjourney生成的一樣

以后，或許就是虛擬世界教現實來做事了。

AI寫的劇本，行不行？

負責人介紹說，項目的目標一直都是AGI，只有AGI，才是真正活著的AI，AI聊天機器人還遠遠算不上。

它們會在模擬世界中過著真實的日常生活，還會隨著時間推移而不斷成長。

圖片

在這個虛擬世界中，我們可以觀看AI的生活，就仿佛一場屬于AI的真人秀。

在南方公園這個模擬小鎮中，你可以用Showrunner制作自己的電視劇IP。

圖片

在整個過程中，你可以讓智能體為你自動寫劇本，還可以給Showrunner一兩句話的prompt。

如果你希望深入地了解細節，就可以通過prompt逐個編輯每個場景的對話。

圖片

智能體寫出的劇情，是什么水平？讓我們來賞析一下。

圖片

在視頻開頭，會介紹一段Westland編年史。

一家邪惡的公司Bizney創造出一只機器豬作為人類的AI伴侶，這只機器豬有嚴重的種族主義傾向，使公司陷入了一場公關噩夢。

圖片

劇中的主人公發現，馬斯克綁架了所有的好萊塢當紅頂級演員，讓他們來火星陪他一起生活。

而自90年代以來，我們見到的很多明星，比如湯姆克魯斯和梅麗爾斯特里普，其實都是他們的DeepFake。

圖片

最有趣的是，考慮到網友們或許自己也想成為「劇中人」，所以Fable特意新建了一個上傳功能，讓用戶可以上傳自己的照片和聲音，出現在節目中。

現有生成式AI在創作上的局限

當前的生成式AI還是有一些局限。

如Stable Diffusion和ChatGPT在短期的一般任務中表現出色，然而，在長期創作過程中，它們卻沒有向用戶或Showrunner這樣的自動故事生成系統提供任何上下文指導，或表現出意向性。

但如果想做出高質量的創意作品，長期的創作過程是至關重要，尤其在現今IP開發的背景下。

生活在不確定性中

多智能體模擬，能讓內容產品與IP故事世界更加一致。用戶可以利用角色的個人經歷、目標和情感、以及模擬事件和地點等數據來生成相關的場景和圖像資產。

基于IP的模擬還為用戶提供了他們熟知的故事背景，使用戶能夠更輕松地對生成的故事進行判斷。

此外，通過人機交互，讓用戶對智能體的對話系統進行控制、觀察和交流，從而讓智能體學會用戶的愿望和意愿，然后智能體在生成回復的時候就可以照著用戶的愿望和期待來生成。

就像生成個馬老板，讓他來回答你的問題！

我們的模擬足夠的復雜且隨機，有利于期望驗證效應（positive disconfirmation）。放大效應有助于緩解我們認為是不良的「老虎機」效應，我們稍后會簡要提及。

我們習慣被動的觀看，輸入關鍵詞，立即就會跳出「場景/劇集」結果。這一過程的時間跨度不鼓勵用戶立即判斷，減少了他們「重試」的欲望。

用戶簡單的輸入和產生的高質量長篇輸出劇集之間的不對稱是期望驗證效應的一個關鍵因素。

但是使用和prompt大型語言模型作為該過程的一部分可能會帶來「幾個挑戰」。

某些像幻覺這樣增加不確定性的效應，可以為故事增加創造性，它們就像創作過程中的「幸運意外」。如果不過度破壞邏輯，這些「意外」可以增強用戶體驗。

所以合理引入一些隨機性和不確定性，可以產生積極的創造性效果，增強用戶體驗。關鍵是要保持邏輯自洽、不要完全破壞劇情，讓系統可以從中恢復。

「老虎機效應」

「老虎機效應」是指人工智能生成的內容更像是隨機組合生成的內容，而不是有目的性的創作過程。這是由于人工智能生成過程的不可預測和瞬時生成的性質造成的。

當前的生成式人工智能系統不支持或鼓勵在長期創意目標的背景下進行多個創意評估步驟。它們的界面通常具有各種設置，例如滑塊和輸入字段，這些設置增加了控制水平和變化性。

圖片

但是，最終的輸出基本上是通過按下按鈕瞬間生成的。這種瞬時生成過程會給用戶帶來即時滿足，使他們的多巴胺噴涌......

這種獎勵機制在很長一段時間內有助于維持多步驟的創作過程，但當前的界面、獎勵頻率和缺乏進展（陷入無限循環）可能會導致負面影響，例如挫敗感、理想—實際生成之間的鴻溝或失去對創作過程的控制。

這種鴻溝是有利于即時滿足的行為偏見造成的，這對長期創作的目標來說可能是有害的。

雖然我們不通過界面直接解決這些問題，但是在模擬中對過程進行情景化設定、采用輸入、輸出之間的時間控制將有助于減輕老虎機效應對創作的負面影響。

此外，我們認為在模擬過程中為角色設定discriminator(判別器)，讓他們參與創作評估過程，也是一個緩解老虎機效應的方法。

例如讓一個智能體反思他被分配的角色，或者他應該表演的場景。

生成故事系統的多步驟「試錯」過程不會呈現給用戶，系統不允許干預或判斷。這樣可以避免用戶在做出「接受或拒絕」決定時產生的對即時滿足的負面影響。

對于用戶體驗來說，人工智能系統重試不同提示鏈的頻率并不重要，只要生成過程不是被負面地感知為空白時間，而是能無縫集成到與模擬游戲玩法中。

用戶只在整個過程的最后，在觀看生成的場景或劇集后才扮演鑒別者的角色。這也是一個利用人類反饋強化學習(RLHF)概念來改進多步創作過程及結果的自動生成劇集的方法。

大語言模型

LLM通常基于Transformer架構構建，這類模型依賴于自注意力機制。Transformer能夠高效利用計算資源，使得訓練更大規模的語言模型成為可能。

例如，GPT-4包含數十億個參數，在大規模數據集上訓練，在其權重中有效編碼了大量的世界知識。

圖片

向量嵌入（vector embeddings）的概念對這些大語言模型的運行機制至關重要。它們是將詞或短語表示為高維空間中的數學表示。這些嵌入捕獲了詞之間的語義關系，語義相似的詞在嵌入空間中位置鄰近。

在大語言模型中，模型詞匯表中的每個詞起初都表示為一個稠密向量,也稱為嵌入。這些向量在訓練過程中被調整，它們的最終值或者說「嵌入」，表示了單詞之間的學習關系。

在訓練過程中，模型通過調整嵌入和其他參數來最小化預測詞和實際詞之間的差異，以預測句子中的下一個詞。因此,嵌入反映了模型對詞及其上下文的理解。

圖片

此外，由于Transformer可以關注句子中任意位置的詞，模型可以形成對句子含義更全面的理解。這是對舊模型只能考慮有限窗口中的詞的重大進步。

向量嵌入和Transformer體系結構的結合使得大語言模型可以更加深入細致地理解語言，這就是為什么這些模型可以生成如此高質量、類人的文本的原因。

如前所述，基于Transformer的語言模型擅長短期的一般任務。它們被視為是用快速思維的方式在運行。快速思維涉及本能、自動且通常基于啟發式的決策，而慢思維涉及深思熟慮、分析和努力的過程。

圖片

LLM根據從訓練數據中學習的模式快速生成響應，而沒有內省或理解其輸出背后的底層邏輯的能力。這意味著大語言模型缺乏深思熟慮、深入推理或像人類那樣從單一經驗中學習的能力。

雖然這些模型在文本生成任務取得了顯著的進步，但快速思維的特性可能會限制它們在需要深度理解或靈活推理的任務上的潛力。

圖片

最近模仿慢思維能力的方法，如提示鏈工程（見Auto-GPT）就顯示了很有前景的結果。

大語言模型可以在多步驟過程中充當自己的鑒別器。這能顯著改善它在不同情境下的推理能力,例如解決數學問題。

在此項研究中，研究者大量使用GPT-4來影響模擬中的智能體，以及生成南方公園劇集的場景。

由于大多數南方公園劇集的轉錄是GPT-4訓練數據集的一部分，它已經對角色的個性、談話風格以及節目的整體幽默感有很好的把握，無需再進行定制微調。

而我們通過多步創作過程來模擬慢思維。為此，我們使用不同的提示鏈來比較和評估不同場景的事件，以及它們如何推動整個故事朝著令人滿意的、與IP一致的結果發展。

我們嘗試通過提示鏈生成劇集，但故事生成是一個高度不連續的任務。這些是內容創作無法以漸進或連續的方式完成，而是需要一個「恍然大悟」的想法，來解決任務的進展上一個不連續的飛躍。

內容生成涉及發現或發明一種看待或構建問題的新方法。這可以啟用剩余內容的生成。

不連續任務的例子有，需要開創性的觀點或創造性應用公式的數學問題，撰寫笑話或謎語，想出科學假說或哲學論點，或開拓出一種新的寫作流派或風格。

擴散模型

Diffusion模型的運作原理是隨著時間的推移，逐漸從數據中添加或去除隨機噪聲，以生成或重構輸出。圖像開始作為隨機噪聲，經過許多步驟后逐漸變換成一個連貫的圖片，反之亦然。

圖片

為了訓練我們定制的Diffusion模型,我們收集了一個全面的數據集,包含來自動畫劇《南方公園》約1200個角色和600個背景圖像。這個數據集為模型學習該劇的風格提供了原始材料。

圖片

為了訓練這些模型，我們使用了Dream Booth。此訓練階段的結果是創建了兩個專門的Diffusion模型。

第一個模型專門用于生成單個角色，角色將會站在可摳背景顏色前。這有助于提取生成的角色進行后續處理和動畫,使我們能夠無縫地將新生成的角色集成到各種場景和設置中。

圖片

此外,角色的Diffusion模型允許用戶通過Stable Diffusion的圖片到圖片過程，創建一個基于自己外觀的南方公園角色，并作為平等參與的智能體加入模擬。

由于能夠克隆自己的聲音，可以輕松想象到一個基于用戶外貌、書寫風格和聲音的完全實現的自主角色。

第二個模型經過訓練可以生成干凈的背景，而且能夠特別聚焦于外部和內部環境。該模型提供了一個「舞臺」，我們生成的角色可以在上面互動，從而可以創建各種潛在的場景和情景。

但需要注意的是，因為這些模型的產出是基于像素的性質，這些模型生成的圖像在分辨率本質上是有限的。

為了克服這個限制，我們使用AI升級技術對生成的圖像進行再處理，特別是R-ESRGAN-4x+-Anime6B，它可以優化和增強圖像質量。

對于未來的2D交互作品，訓練能生成基于矢量輸出的定制Transformer模型將具有以下幾個優勢。

與基于像素的圖像不同，矢量圖形在調整大小或縮放時不會降低質量，因此可以提供無限分辨率的潛力。這將使我們能夠生成無論以何種比例查看都能保持質量和細節的圖像。

此外，基于矢量的形狀已經分成單獨的部分，解決了基于像素的具有透明度和分割的后處理問題。

這簡化了生成資產集成到過程化世界的構建，以及動畫系統中的復雜性。

劇集生成

我們將一集定義為在特定地點進行的一系列對話場景，一集南方公園的播放時間總共是22分鐘。

為了生成一個完整的南方公園劇集，我們通常以標題、概要和我們希望在模擬虛擬世界的1周內（=大約3小時的播放時間）發生的主要事件的形式，向故事系統提供一個高層次的想法。

基于此，故事系統會自動使用模擬數據作為提示鏈的一部分，推斷出多達14個場景。

圖片

Showrunner系統負責為每個場景選派角色，以及故事應該如何通過情節模式進行。

每個場景都與一個情節字母（例如A，B，C）相關聯，然后由Showrunner在一個劇集的過程中交替不同的角色組，并跟隨他們的各自故事線，以保持用戶的參與度。

最后，每個場景只定義了地點、角色和對話。在舞臺系統和AI攝像系統進行初始設置后，根據情節模式（例如ABABC）回放場景。

每個角色的聲音都已經提前克隆，并且每一條新的對話線都會即時生成語音剪輯。

圖片

模擬創造性思維

如前所述，模擬產生的數據，既為撰寫初始提示的用戶，也為與LLM進行提示鏈交互的生成故事系統，提供了創新的燃料。

提示鏈是一種技術，它通過向語言模型提供一系列相關的提示，來模擬持續的思維過程。有時，它可以在每一步中扮演不同的角色，對前一個提示和生成的結果進行判別。

在這個例子中，我們會模仿一個非連續的創造性思維過程。

例如，要創建14個不同的《南方公園》場景，可以先提供一個概括性的提示，勾勒出總體敘事，然后再提供具體的提示，詳細說明和評估每個場景的演員、地點和關鍵情節。

圖片

這就模仿了人類頭腦風暴的過程，即通過多個往往是不連續的步驟，對創意進行構建和完善。

通過利用LLM的生成能力和提示鏈提供的迭代完善功能，我們可以有效地構建出動態、詳細和引人入勝的敘事。

此外，我們探索了新的概念，如情節模式和戲劇操作符（DrOps），從而增強整個劇集的結構，同時也增強了每個場景之間的連貫性。

反轉、預示、懸念等修辭手法，很難作為提示鏈的一部分進行評估。沒有寫作背景的用戶在判斷這些修辭手法的有效性和適當的位置上，也會有同樣的困難。

為此，研究者提出了一種程序化的方法，將這些特定于節目的模式和修辭手法作為情節模式和DrOps，程序化地注入到提示鏈中。這些模式和DrOps可以在行為結構、場景結構和單個對話的層面上操作。

他們正在研究未來的機會，以提取針對每個IP和格式的戲劇指紋，并利用這些數據來訓練定制的SHOW-1模型。

這個數據集與人類的整體反饋相結合，可以在用戶和指定的IP之間進一步對齊語調、風格和娛樂價值，同時提供一個高度自適應和互動的故事系統，作為正在進行的模擬的一部分。

圖片

誰在推動這個故事？

在這個方法中，故事生成過程是項目、用戶和GPT-4共同負責的。

每個參與者各自的優缺點，這取決于我們希望他們在整個故事中扮演怎樣的角色。他們的角色是獨特的，他們的貢獻可以有不同的權重。

The Simulation通常提供基礎的IP-based上下文、角色歷史、情緒、事件和地點，為初始的創新過程提供種子。

圖片

而用戶引入自己的意向性，對智能體施加行為控制，并提供啟動生成過程的初始提示。用戶也充當最后的鑒別器，在過程結束時評估生成的故事內容。

另一方面，GPT-4則充當主要的生成引擎，根據它從用戶和Simulation那里收到的提示創建和推斷場景和對話。

這是一個共生的過程，每個參與者的優點都有助于構建一個連貫、吸引人的故事。

重要的是，我們的多步驟方法，以提示鏈的形式，也提供了檢查和平衡，減輕了不希望的隨機性的可能性，并允許與IP故事世界更一致的對齊。

責任編輯：張燕妮來源：新智元

AI 導演

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看