成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡 精華

發(fā)布于 2025-6-25 09:45
瀏覽
0收藏

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2506.18899 
項(xiàng)目鏈接:https://filmaster-ai.github.io/

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

FilMaster 生成的視頻樣本

亮點(diǎn)直擊

  • 一種融合電影原則的新型系統(tǒng): 提出FilMaster,首個(gè)基于AI的綜合性電影生成系統(tǒng),明確圍繞電影原則設(shè)計(jì),以指導(dǎo)鏡頭語(yǔ)言和電影節(jié)奏。它填補(bǔ)了從劇本到成片的鴻溝。
  • 從真實(shí)電影中學(xué)習(xí)攝影技術(shù): 提出一種新穎的多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)模塊,從大量真實(shí)電影中學(xué)習(xí)攝影模式,生成連貫且富有表現(xiàn)力的視覺(jué)效果,實(shí)現(xiàn)多鏡頭協(xié)同輸出。
  • AI驅(qū)動(dòng)的后期制作實(shí)現(xiàn)電影節(jié)奏: 提出創(chuàng)新的以觀眾為中心的電影節(jié)奏控制模塊,模擬專業(yè)后期制作流程。
  • 全面的電影評(píng)估基準(zhǔn): 建立了新基準(zhǔn)FilmEval,用于全面評(píng)估AI生成的電影,F(xiàn)ilMaster在創(chuàng)作高質(zhì)量、引人入勝的電影內(nèi)容方面的性能卓越。

總結(jié)速覽

解決的問(wèn)題

  • 現(xiàn)有AI電影生成系統(tǒng)的不足
  • 缺乏對(duì)核心電影原則(如鏡頭語(yǔ)言、電影節(jié)奏)的理解與實(shí)現(xiàn),導(dǎo)致生成內(nèi)容模板化、敘事乏味。
  • 鏡頭語(yǔ)言不專業(yè):現(xiàn)有系統(tǒng)依賴LLM的想象生成鏡頭,缺乏真實(shí)電影數(shù)據(jù)的參考,導(dǎo)致視覺(jué)表達(dá)缺乏連貫性和表現(xiàn)力。
  • 電影節(jié)奏控制薄弱:視頻剪輯簡(jiǎn)單拼接,音畫不同步,缺乏專業(yè)后期工作流的模擬,難以營(yíng)造情感沖擊。
  • 輸出不可編輯:生成結(jié)果多為非結(jié)構(gòu)化視頻文件,難以融入專業(yè)影視制作流程。
  • 評(píng)估標(biāo)準(zhǔn)的缺失
  • 現(xiàn)有基準(zhǔn)(如視覺(jué)生成評(píng)測(cè))無(wú)法全面評(píng)估電影的多維度質(zhì)量(如敘事、節(jié)奏、觀眾體驗(yàn)等)。

提出的方案

  • 參考引導(dǎo)的生成階段(Reference-Guided Generation Stage)
  • 從44萬(wàn)真實(shí)電影片段庫(kù)中檢索與場(chǎng)景文本上下文匹配的參考片段,提取專業(yè)鏡頭語(yǔ)言描述(如景別、運(yùn)鏡、角度)。
  • 利用LLM結(jié)合檢索結(jié)果重新規(guī)劃鏡頭,確保多鏡頭間的時(shí)空連貫性和敘事一致性。
  • 多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)模塊
  • 生成式后期制作階段(Generative Post-Production Stage)
  • 粗剪(Rough Cut):構(gòu)建基礎(chǔ)敘事結(jié)構(gòu)。
  • 細(xì)剪(Fine Cut):通過(guò)MLLM模擬目標(biāo)觀眾反饋(如特定人口統(tǒng)計(jì)特征),指導(dǎo)剪輯調(diào)整節(jié)奏、音畫同步。
  • 聲音設(shè)計(jì):集成多層次音頻(環(huán)境音、配樂(lè)、音效等),實(shí)現(xiàn)音畫協(xié)同。
  • 觀眾中心的電影節(jié)奏控制模塊
  • 可編輯輸出
  • 生成符合行業(yè)標(biāo)準(zhǔn)的結(jié)構(gòu)化輸出(如OpenTimelineIO格式),支持導(dǎo)入專業(yè)軟件(如DaVinci Resolve)進(jìn)一步編輯。
  • 評(píng)測(cè)基準(zhǔn)FilmEval
  • 覆蓋敘事、視聽(tīng)技術(shù)、美學(xué)、節(jié)奏、觀眾 engagement等維度的綜合評(píng)估體系。

應(yīng)用的技術(shù)

  • 多模態(tài)大模型((M)LLMs): 用于腳本解析、鏡頭規(guī)劃、觀眾反饋模擬、后期剪輯決策。
  • 檢索增強(qiáng)生成(RAG): 從大規(guī)模電影片段庫(kù)中檢索專業(yè)鏡頭語(yǔ)言參考。
  • 視頻生成模型: 根據(jù)規(guī)劃生成初始視頻片段。
  • 音頻生成與同步技術(shù): 多軌道音效設(shè)計(jì)與時(shí)間軸對(duì)齊。

達(dá)到的效果

  • 專業(yè)級(jí)鏡頭語(yǔ)言: 生成具有表現(xiàn)力且連貫的鏡頭(如動(dòng)態(tài)運(yùn)鏡、合理景別切換),顯著優(yōu)于模板化輸出(如MovieAgent)。
  • 沉浸式電影節(jié)奏: 通過(guò)觀眾反饋驅(qū)動(dòng)的剪輯和音畫同步,提升敘事張力和情感沖擊力。
  • 工業(yè)級(jí)實(shí)用性: 可編輯的標(biāo)準(zhǔn)化輸出(OTIO格式),直接對(duì)接專業(yè)影視流程。
  • 評(píng)測(cè)優(yōu)勢(shì): 在FilmEval基準(zhǔn)中,F(xiàn)ilMaster在鏡頭語(yǔ)言設(shè)計(jì)和節(jié)奏控制維度表現(xiàn)顯著優(yōu)于基線模型。

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

FilMaster 與當(dāng)前 AI 驅(qū)動(dòng)的工作流程和電影生成系統(tǒng)的比較

方法

本屆介紹系統(tǒng)概述,再詳細(xì)說(shuō)明兩個(gè)核心創(chuàng)新模塊:多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)模塊以觀眾為中心的電影節(jié)奏控制模塊

FilMaster概述

FilMaster是一個(gè)自動(dòng)化電影生成系統(tǒng),旨在根據(jù)輸入文本(輔以角色和場(chǎng)景的參考圖像)生成完整電影,并輸出可編輯、結(jié)構(gòu)化的多軌道時(shí)間軸文件(采用行業(yè)標(biāo)準(zhǔn)OTIO格式)。如下圖3所示,整體流程可分為兩個(gè)階段:

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

參考引導(dǎo)的生成階段

該階段以輸入文本和角色/場(chǎng)景參考圖像為輸入,利用(M)LLMs進(jìn)行視頻內(nèi)容規(guī)劃和腳本結(jié)構(gòu)化,隨后通過(guò)視頻生成模型生成視頻片段。具體步驟包括:

  • 從粗到細(xì)逐步將初始文本細(xì)化為包含時(shí)空上下文的詳細(xì)場(chǎng)景描述;
  • 協(xié)同規(guī)劃同一場(chǎng)景內(nèi)各鏡頭的鏡頭語(yǔ)言;
  • 基于設(shè)計(jì)的視覺(jué)語(yǔ)言和參考圖像生成視頻片段。多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)模塊在構(gòu)建連貫且富有表現(xiàn)力的視覺(jué)語(yǔ)言中起關(guān)鍵作用。

生成式后期制作階段

基于上一階段生成的視頻,該階段將原始素材轉(zhuǎn)化為精修成品,協(xié)調(diào)視聽(tīng)元素以實(shí)現(xiàn)電影節(jié)奏。包括:

  • 組裝粗剪版本;根據(jù)模擬的觀眾反饋優(yōu)化為細(xì)剪版本,調(diào)整視頻結(jié)構(gòu)和時(shí)長(zhǎng);
  • 設(shè)計(jì)多層次音效。

?

以觀眾為中心的電影節(jié)奏控制模塊負(fù)責(zé)控制敘事結(jié)構(gòu)、節(jié)奏,確保視聽(tīng)元素的有效整合,從而提升情感共鳴和觀眾參與度。


最終視頻和音頻將打包為支持多軌道的OTIO格式,確保與專業(yè)剪輯軟件兼容,便于融入實(shí)際電影制作流程。

多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)

受專業(yè)電影人通過(guò)研究大量電影參考學(xué)習(xí)鏡頭語(yǔ)言的啟發(fā),F(xiàn)ilMaster引入多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)模塊,基于海量真實(shí)電影片段數(shù)據(jù)集進(jìn)行鏡頭語(yǔ)言學(xué)習(xí)。該模塊通過(guò)以下步驟突破模板化鏡頭的限制:

  • 時(shí)空感知索引嵌入場(chǎng)景上下文;
  • 電影參考檢索;
  • 鏡頭重規(guī)劃。

時(shí)空感知索引
FilMaster 

首先將輸入文本處理為場(chǎng)景塊(scene block)。場(chǎng)景塊定義為敘事中在單一連貫場(chǎng)景內(nèi)發(fā)生的連續(xù)片段,保持該場(chǎng)景的時(shí)空連續(xù)性。每個(gè)場(chǎng)景塊包含以下時(shí)空上下文:多鏡頭提示元素、場(chǎng)景地點(diǎn)、時(shí)間、在場(chǎng)角色、關(guān)鍵視覺(jué)元素,以及該場(chǎng)景的敘事目標(biāo)(示例見(jiàn)上圖3右上)。同一場(chǎng)景塊內(nèi)的所有鏡頭共享角色和場(chǎng)景的參考圖像以保持連續(xù)性。通過(guò)LLM鏈?zhǔn)秸{(diào)用,系統(tǒng)從梗概逐步細(xì)化到簡(jiǎn)單分鏡、詳細(xì)分鏡,最終生成場(chǎng)景塊。精心設(shè)計(jì)的場(chǎng)景塊及其時(shí)空上下文與敘事目標(biāo),確保了鏡頭語(yǔ)言的高度連貫性和表現(xiàn)力。接著,場(chǎng)景塊通過(guò)嵌入模型編碼為向量并存入向量數(shù)據(jù)庫(kù)。這些富含時(shí)空上下文和敘事目標(biāo)的場(chǎng)景塊將作為后續(xù)檢索與生成過(guò)程的精準(zhǔn)查詢依據(jù)。我們的真實(shí)電影數(shù)據(jù)集包含44萬(wàn)條帶專業(yè)標(biāo)注的電影片段,其文本標(biāo)注詳細(xì)描述了鏡頭語(yǔ)言的關(guān)鍵要素(如景別、運(yùn)鏡、角度、氛圍特征),這些描述同樣通過(guò)相同嵌入模型編碼為向量。

電影參考檢索

經(jīng)時(shí)空感知索引定義的場(chǎng)景塊(含時(shí)空上下文和敘事目標(biāo))作為檢索查詢。其向量表示(查詢向量)與電影數(shù)據(jù)集向量進(jìn)行相似度計(jì)算后,優(yōu)先檢索出Top-K最相似的電影參考。檢索到的電影片段文本描述將用于指導(dǎo)下一階段的LLM鏡頭重規(guī)劃。

鏡頭重規(guī)劃

基于檢索結(jié)果,F(xiàn)ilMaster分析重復(fù)出現(xiàn)的電影模式,提取適用于當(dāng)前敘事場(chǎng)景的專業(yè)鏡頭技巧,重點(diǎn)識(shí)別能增強(qiáng)視覺(jué)沖擊力和敘事目標(biāo)的視覺(jué)敘事方法。原始場(chǎng)景塊查詢與檢索到的電影參考被合成連貫的LLM提示詞,由LLM重新規(guī)劃多鏡頭提示以確保鏡頭語(yǔ)言的一致性。該過(guò)程可通過(guò)LLM多輪對(duì)話迭代優(yōu)化。這種基于敘事目標(biāo)和真實(shí)電影參考的多鏡頭協(xié)同設(shè)計(jì),確保了場(chǎng)景塊內(nèi)多鏡頭的連續(xù)性與連貫性(與以往孤立處理鏡頭的方法形成關(guān)鍵差異)。鏡頭重規(guī)劃會(huì)為每個(gè)鏡頭指定合適的景別、運(yùn)鏡、角度和氛圍描述,同時(shí)保留原始敘事內(nèi)容和目標(biāo),最終生成的鏡頭語(yǔ)言既具表現(xiàn)力,又在多鏡頭場(chǎng)景層面保持連貫。

觀眾中心的電影節(jié)奏控制

盡管多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)模塊能生成視覺(jué)連貫的場(chǎng)景,但若僅依賴視覺(jué)輸出而缺乏合適的敘事驅(qū)動(dòng)力和有效的視聽(tīng)元素整合,仍會(huì)導(dǎo)致生成內(nèi)容平淡乏味,難以引起觀眾共鳴,遠(yuǎn)未達(dá)到專業(yè)標(biāo)準(zhǔn)。為此,提出觀眾中心的電影節(jié)奏控制模塊。該模塊借鑒專業(yè)電影后期工作流逐步優(yōu)化節(jié)奏的方法,首先生成粗剪版本并從模擬觀眾視角進(jìn)行評(píng)審,隨后進(jìn)入細(xì)剪階段:通過(guò)視頻編輯協(xié)調(diào)視覺(jué)敘事結(jié)構(gòu)與節(jié)奏,通過(guò)聲音設(shè)計(jì)整合多層次音效,最終實(shí)現(xiàn)情感共鳴與觀眾參與度的雙重提升。整個(gè)流程由MLLM驅(qū)動(dòng),通過(guò)賦予其后期專業(yè)角色(如觀眾、剪輯師、音效設(shè)計(jì)師)來(lái)完成。

觀眾中心評(píng)審

傳統(tǒng)AI方法常僅從導(dǎo)演視角出發(fā),可能限制影片與真實(shí)觀眾的情感共鳴。為此,F(xiàn)ilMaster引入觀眾中心評(píng)審機(jī)制,將導(dǎo)演敘事意圖與模擬觀眾期望相結(jié)合。系統(tǒng)首先允許指定目標(biāo)觀眾類型(如"短劇觀眾"),MLLM利用網(wǎng)絡(luò)搜索工具構(gòu)建該類型的人口統(tǒng)計(jì)特征、偏好及觀看期望(如偏好緊湊敘事或快節(jié)奏內(nèi)容)。為便于評(píng)審,系統(tǒng)會(huì)組合多鏡頭協(xié)同RAG模塊生成的視頻序列與LLM生成的場(chǎng)景塊音頻文本描述(VO)作為臨時(shí)音效占位,組裝成粗剪版本。隨后,MLLM基于觀眾特征分析該版本,識(shí)別結(jié)構(gòu)流暢性、敘事節(jié)奏、場(chǎng)景轉(zhuǎn)場(chǎng)及占位音頻一致性等方面的潛在問(wèn)題。評(píng)審后,獨(dú)立LLM分析模塊將問(wèn)題歸類為三個(gè)維度:結(jié)構(gòu)組織、時(shí)間與時(shí)長(zhǎng)、音頻連貫性,并生成可執(zhí)行建議以指導(dǎo)后續(xù)細(xì)剪調(diào)整。

視頻編輯

基于觀眾分析與帶時(shí)間碼的視頻文本描述,系統(tǒng)通過(guò)LLM模擬專業(yè)剪輯師進(jìn)行深度優(yōu)化,主要采用兩種機(jī)制:

  1. 結(jié)構(gòu)重組:調(diào)整或刪除冗余鏡頭以增強(qiáng)場(chǎng)景邏輯性與敘事張力
  2. 時(shí)長(zhǎng)調(diào)整:通過(guò)三種操作控制單鏡頭時(shí)長(zhǎng)以調(diào)節(jié)敘事節(jié)奏:
  • 修剪(去除冗余畫面)
  • 加速(適配節(jié)奏需求)
  • 保留(維持原始時(shí)長(zhǎng))該過(guò)程逐步使視覺(jué)敘事與敘事目標(biāo)及觀眾期望對(duì)齊,最終形成定剪版本(picture lock)進(jìn)入音效設(shè)計(jì)階段。

聲音設(shè)計(jì)

針對(duì)現(xiàn)有AI系統(tǒng)音頻處理薄弱的問(wèn)題(見(jiàn)下表1),本文提出多尺度音畫同步策略系統(tǒng)化整合五類音頻元素:

  • 背景環(huán)境音
  • 配樂(lè)
  • 旁白(VO)
  • 擬音(foley)
  • 音效(SFX)

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

同步過(guò)程分三個(gè)時(shí)間尺度管理:

  1. 場(chǎng)景級(jí):LLM直接根據(jù)場(chǎng)景塊選擇配樂(lè)與環(huán)境音
  2. 鏡頭級(jí):LLM結(jié)合視頻文本與觀眾反饋設(shè)計(jì)旁白
  3. 鏡頭內(nèi)級(jí):MLLM精確對(duì)齊擬音/音效與視覺(jué)事件

音頻素材通過(guò)語(yǔ)音合成(VO)或從精選音頻庫(kù)檢索增強(qiáng)生成(RAG,類似3.2節(jié))獲取。最后采用自動(dòng)化混音技術(shù)(附錄B)解決多音軌的響度、頻響平衡與動(dòng)態(tài)范圍問(wèn)題,通過(guò)LUFS標(biāo)準(zhǔn)化與頻率調(diào)整確保聲場(chǎng)協(xié)調(diào)、人聲清晰度與整體音質(zhì)統(tǒng)一。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

實(shí)現(xiàn)細(xì)節(jié)。本文使用GPT-4o進(jìn)行劇本生成、檢索增強(qiáng)生成(RAG)、視頻編輯和音效設(shè)計(jì)(旁白、背景音樂(lè)、配樂(lè))。對(duì)于以觀眾為中心的評(píng)審和音效設(shè)計(jì)(擬音和音效),采用Gemini-2.0-Flash。視頻生成模型使用Kling Elements,該模型能夠以多張參考圖像為條件生成視頻。生成的視頻片段分辨率為1920×1080,每段序列包含153幀。

評(píng)估指標(biāo)。由于本研究首次提出了一種端到端的電影生成任務(wù),并全面關(guān)注鏡頭語(yǔ)言和電影節(jié)奏,因此建立了FilmEval這一整體評(píng)估基準(zhǔn)。FilmEval基于六個(gè)對(duì)電影質(zhì)量評(píng)估至關(guān)重要的高級(jí)維度:敘事與劇本(NS)、視聽(tīng)與技術(shù)(AT)、美學(xué)與表達(dá)(AE)、節(jié)奏與流暢性(RF)、情感與參與度(EE)以及整體體驗(yàn)(OE)。這些維度進(jìn)一步分解為十二項(xiàng)具體標(biāo)準(zhǔn)以進(jìn)行詳細(xì)評(píng)估(標(biāo)準(zhǔn)詳見(jiàn)附錄C):

  • NS:劇本忠實(shí)度(SF)、敘事連貫性(NC)
  • AT:視覺(jué)質(zhì)量(VQ)、角色一致性(CC)、物理定律符合性(PLC)、語(yǔ)音/音頻質(zhì)量(V/AQ)
  • AE:電影技術(shù)(CT)、視聽(tīng)豐富性(AVR)
  • RF:敘事節(jié)奏(NP)、視頻-音頻協(xié)調(diào)性(VAC)
  • EE:吸引程度(CD)
  • OE:整體質(zhì)量(OQ)

盡管本文的工作重點(diǎn)在于鏡頭語(yǔ)言和電影節(jié)奏的兩個(gè)關(guān)鍵模塊,但需要認(rèn)識(shí)到電影質(zhì)量源于各元素的整體協(xié)同作用。因此,評(píng)估維度不僅涵蓋每個(gè)模塊的直接輸出,還包括它們對(duì)最終影片的協(xié)同影響:

  • 多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)模塊的影響主要通過(guò)NS(SF、NC)評(píng)估,確保視覺(jué)敘事與劇本一致,并通過(guò)AT的關(guān)鍵視覺(jué)方面(VQ、CC、PLC)反映規(guī)劃視覺(jué)基礎(chǔ)的質(zhì)量與連貫性。該模塊還為AE(CT)奠定基礎(chǔ),通過(guò)設(shè)計(jì)具有內(nèi)在電影質(zhì)量的鏡頭,并貢獻(xiàn)于AE的視覺(jué)部分(AVR)。
  • 以觀眾為中心的電影節(jié)奏控制模塊的有效性通過(guò)AT的音頻相關(guān)方面(V/AQ)、通過(guò)復(fù)雜編輯和音效設(shè)計(jì)實(shí)現(xiàn)的AE(CT、AVR)、RF的掌握(NP、VAC)以及最終的EE(CD)來(lái)衡量。該模塊將視覺(jué)和聽(tīng)覺(jué)元素協(xié)調(diào)為連貫且有沖擊力的節(jié)奏體驗(yàn),由最終評(píng)判標(biāo)準(zhǔn)OE(OQ)評(píng)估。

為評(píng)估本文的方法,在FilmEval中同時(shí)采用自動(dòng)評(píng)估指標(biāo)和用戶研究。由于缺乏針對(duì)此任務(wù)的現(xiàn)有自動(dòng)指標(biāo),提出以Gemini-1.5-Flash作為評(píng)估模型,用于在定義的維度上評(píng)估生成的影片。為確保可靠性,我們通過(guò)測(cè)量自動(dòng)評(píng)估與人類判斷的相關(guān)性來(lái)驗(yàn)證其有效性。

測(cè)試數(shù)據(jù)集。本文的評(píng)估采用包含20個(gè)測(cè)試案例的多樣化集合,涵蓋兩種不同的提示類型:10個(gè)案例來(lái)自MoviePrompts,這些案例具有廣泛而詳細(xì)的描述,平均100.4詞;另外10個(gè)為更簡(jiǎn)潔的提示,平均15.2詞,由標(biāo)注者專門設(shè)計(jì)以評(píng)估本文的方法在處理不同輸入復(fù)雜性時(shí)的靈活性。

對(duì)比模型。將本文的方法與之前的自動(dòng)電影生成工作進(jìn)行對(duì)比:動(dòng)畫生成方法(Anim-Director)、電影生成方法(MovieAgent)以及一款商業(yè)產(chǎn)品(LTX-Studio)。由于LTX-Studio支持自動(dòng)音效,應(yīng)用相同的設(shè)置以確保公平比較。

定量結(jié)果

自動(dòng)評(píng)估。結(jié)果如下表2所示,F(xiàn)ilMaster平均提升58.06%:其中鏡頭語(yǔ)言提升43.00%,電影節(jié)奏提升77.53%。分析表明,現(xiàn)有方法如Anim-Director和MovieAgent在NS、AE、RF、EE和OE等多個(gè)維度表現(xiàn)顯著不足,尤其在音頻質(zhì)量與音畫協(xié)調(diào)性方面存在嚴(yán)重缺陷。相比之下,本文的方法在FilmEval所有評(píng)估維度上均實(shí)現(xiàn)顯著改進(jìn),相較Anim-Director和MovieAgent平均性能分別提升75%和69%。與商用產(chǎn)品LTX-Studio相比,LTX-Studio在劇本忠實(shí)度、敘事連貫性、敘事節(jié)奏和音頻質(zhì)量方面表現(xiàn)欠佳,這可能是由于鏡頭語(yǔ)言與視聽(tīng)元素整合不足所致。本文的方法以平均19.84%的優(yōu)勢(shì)超越LTX-Studio,證明了電影生成系統(tǒng)的有效性。

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

用戶研究。除定量分析外,我們通過(guò)用戶研究評(píng)估生成影片的質(zhì)量。五位參與者被要求基于FilmEval標(biāo)準(zhǔn)對(duì)每段視頻獨(dú)立評(píng)分。從數(shù)據(jù)集中隨機(jī)選取5個(gè)案例,將FilMaster與其他三種方法對(duì)比,共收集1200份評(píng)分(每項(xiàng)標(biāo)準(zhǔn)100票)。下表3展示六大維度結(jié)果,詳細(xì)數(shù)據(jù)見(jiàn)下表6。結(jié)果表明,F(xiàn)ilMaster在電影生成上優(yōu)于現(xiàn)有方法,平均提升68.44%(鏡頭語(yǔ)言70.65%,電影節(jié)奏65.61%)。

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

人工相關(guān)性驗(yàn)證。為驗(yàn)證自動(dòng)評(píng)估指標(biāo),我們采用Pearson's 、Kendall's τ和Spearman's ρ(下表4)測(cè)量其與人工評(píng)分的相關(guān)性,方法類似[13,28]。自動(dòng)指標(biāo)與用戶研究結(jié)果的平均相關(guān)性為0.6230,表明其與人類評(píng)估高度一致。

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

定性結(jié)果

示例。如下圖4所示,本文的方法基于輸入文本生成包含鏡頭語(yǔ)言的描述,并設(shè)計(jì)多軌音頻,通過(guò)鏡頭語(yǔ)言設(shè)計(jì)與節(jié)奏控制形成連貫的視聽(tīng)敘事。更多示例見(jiàn)下圖6。

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

對(duì)比。下圖5顯示,在所有對(duì)比方法中,本文的結(jié)果具有角色一致性、流暢動(dòng)作和連貫敘事結(jié)構(gòu)。現(xiàn)有方法則在視覺(jué)質(zhì)量、音頻設(shè)計(jì)和敘事連貫性上存在局限:

  • 視覺(jué)方面:Anim-Director生成靜態(tài)動(dòng)畫,缺乏自然動(dòng)作過(guò)渡;MovieAgent難以保持角色一致性;LTX-Studio雖視覺(jué)質(zhì)量良好,但無(wú)法維持跨幀角色身份一致性。
  • 音頻與敘事方面:Anim-Director完全缺失音頻,嚴(yán)重限制敘事能力;MovieAgent僅實(shí)現(xiàn)基礎(chǔ)旁白,缺乏多樣化音頻設(shè)計(jì);LTX-Studio依賴自動(dòng)音頻設(shè)計(jì)且缺乏細(xì)粒度控制,導(dǎo)致音畫不同步,其敘事節(jié)奏也常顯拖沓重復(fù)。

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

消融實(shí)驗(yàn)

在下表5中通過(guò)單案例測(cè)試,分別移除多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)模塊以觀眾為中心的電影節(jié)奏控制模塊進(jìn)行消融實(shí)驗(yàn)。定量結(jié)果表明:

好萊塢顫抖!中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI:44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡-AI.x社區(qū)

   

  • 移除電影節(jié)奏模塊導(dǎo)致FilmEval平均分顯著下降,印證了該模塊在相同生成內(nèi)容下強(qiáng)化電影化表達(dá)的關(guān)鍵作用;
  • 多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)模塊的缺失會(huì)破壞生成內(nèi)容的連貫性。

結(jié)論

本文提出首個(gè)面向?qū)I(yè)級(jí)電影生成的AI全流程系統(tǒng)FilMaster,其創(chuàng)新性體現(xiàn)在:

  1. 系統(tǒng)性整合電影原理:聚焦鏡頭語(yǔ)言設(shè)計(jì)與電影節(jié)奏控制,確保輸出符合工業(yè)標(biāo)準(zhǔn)且可編輯;
  2. 多鏡頭協(xié)同RAG鏡頭語(yǔ)言設(shè)計(jì)模塊:基于44萬(wàn)真實(shí)電影片段庫(kù)直接學(xué)習(xí) cinematography,通過(guò)檢索增強(qiáng)生成(RAG)技術(shù)產(chǎn)出具有高電影化連貫性的情境感知鏡頭方案;
  3. 以觀眾為中心的電影節(jié)奏控制模塊:模擬專業(yè)后期流程,包含粗剪組裝、經(jīng)模擬觀眾反饋優(yōu)化的精剪(含視頻編輯與音效設(shè)計(jì)),最終實(shí)現(xiàn)強(qiáng)敘事張力與深度情感共鳴;
  4. FilmEval評(píng)估基準(zhǔn):首創(chuàng)覆蓋六大電影維度的AI生成影片評(píng)估體系。


實(shí)驗(yàn)表明,F(xiàn)ilMaster在用戶研究中平均提升68.44%,自動(dòng)評(píng)估提升58.06%,顯著優(yōu)于現(xiàn)有方法,在視覺(jué)語(yǔ)言表現(xiàn)力與節(jié)奏感染力方面實(shí)現(xiàn)突破性進(jìn)展。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/mXXVADVyTpm-Up_oiRIUuw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日韩一级免费看 | 国产精品视频一二三区 | 精品欧美乱码久久久久久 | 婷婷久久久久 | 国产综合在线视频 | 伊人久久伊人 | 久草热视频 | 亚洲伊人久久综合 | 久久99精品久久久 | 激情欧美日韩一区二区 | 欧美精品欧美精品系列 | 99tv| 国产激情免费视频 | 国产精品中文字幕一区二区三区 | 久久久久久高潮国产精品视 | 欧美男人天堂 | 日韩av在线中文字幕 | 日韩欧美成人精品 | 久久久久久久一区二区 | 国产精品久久国产精品久久 | 成人久久视频 | 亚洲社区在线 | 亚洲精品九九 | 欧美中文字幕一区二区 | 久视频在线| 99re国产精品 | 午夜在线精品 | 日韩网站在线观看 | 天天干天天操天天爽 | 91一区二区 | www久| 台湾a级理论片在线观看 | 久久夜色精品国产 | 麻豆一区一区三区四区 | 成人精品国产一区二区4080 | 日韩在线精品视频 | 日本天天操 | 视频在线亚洲 | 日韩一区在线播放 | 中文字幕一区在线观看视频 | 农村妇女毛片精品久久久 |