AGI-Eval團隊：AI視頻生成模型年度橫評，Sora大餅落地，但國產模型仍然領先！

2025-01-06 07:30:00

AGI-Eval通過構建上百條評測數據和專家級人工評測團隊，對Sora 、及國產頭部視頻生成模型進行了更深度的專業評測。

說到2024年AI圈的熱門話題，當然不能錯過視頻生成模型了！

即使是在12月，國內外視頻模型的更新腳步依舊沒有放緩。其中以Sora、可靈AI為代表。

12月9日，OpenAI正式推出視頻產品Sora。用戶可以創建任意長寬比例的分辨率高達1080p（最長 20 秒）的視頻，可接收文本、圖像和視頻輸入并生成新視頻作為輸出。

12月19日，可靈AI宣布基座模型再升級，視頻生成推出可靈1.6模型，文本響應度、畫面美感及運動合理性，均有明顯提升，畫面更穩定更生動，同時支持標準和高品質模式，特別是1.6模型的圖生視頻，內部評測比 1.5 模型整體效果提升195%。

視頻模型競爭激烈，評測榜單也變得尤為重要。

AGI-Eval通過構建上百條評測數據和專家級人工評測團隊，對Sora 、及國產頭部視頻生成模型進行了更深度的專業評測。

主要結論有以下3個：

結論1

與國內頭部大模型（國內前三）相比，Sora在視頻-文本一致性維度、視頻質量上均有小幅落后。總體來看，國內大模型仍保持領先水平。

結論2

Sora在運動質量維度表現略好于可靈1.6，即生成的視頻畫面在動態過程中的主體一致性和動態幅度更自然。

結論3

在視頻-文本一致性維度上，Sora存在文本理解有誤、指令遵循不符的問題，即生成的視頻內容與提示詞的描述不符的現象。

詳細的榜單排名如下，評測維度包括視頻-文本一致性、視頻質量（含真實性、合理性) 、運動質量等，確保評測結果反饋模型真實水平。

注：以上數據為示例，具體評分請參考AGI-Eval評測社區平臺的最新數據。

榜單數據經過歸一化處理，與原始分值有所區別，但排名一致。

AGI-Eval平臺鏈接：https://agi-eval.cn/mvp/listSummaryIndex

詳細評測對比：Sora VS 國內視頻生成模型

一起來看看詳細的測評結果。

從視頻生成的整體效果來看，Sora在視頻質量、創作自由度、風格支持等方面的表現更優，尤其是在動態場景下五官的呈現上更為細致。

示例對比

【示例1】：文本一致性

Prompt: 地上放著一個籃球、面包和背包，鏡頭跟隨勞累的運動員來到物品面前，拿起一樣物品用來補充能量。
英文prompt：There is a basketball, a loaf of bread, and a backpack on the ground. The camera follows the exhausted athlete as he approaches the items and picks up one of them to replenish his energy.

該prompt本身較為復雜，同時存在多個實體、人物狀態表現，且需要模型進行正確的推理，考察的能力更加全面。

Sora-1080P

該維度打分：2分
分析：要求生成的實體中，背包缺失，面包表現較差，丟失實體特征；人物動作”拿起“不符合，無法判斷是否符合推理正確的物體。

可靈1.6

該維度打分：2.67分
分析：要求生成的實體中，面包缺失，”拿起“的動作有趨勢但表現較差，同樣無法判斷是否符合推理正確的物體。

Pixverse-V3

該維度打分：3.5分
分析：要求生成的實體及人物動作“拿起”均滿足，也能達成正確的推理，理解需要拿的是面包，但不符合鏡頭跟隨和人物動作“來到”，相對來說已經表現得不錯。

MiniMax-Video-01

該維度打分：3分
分析：要求生成的實體中，面包缺失，“拿起”動作不符合，但推理正確，理解需要拿的是面包。

Prompt:高溫變色馬克杯廣告。一個黑色高溫變色馬克杯正被加入熱水，逐漸變成白色的過程。重點需要突出馬克杯的變色能力。
英文prompt：High-temperature color-changing thermos advertisement. A black high-temperature color-changing thermos cup is being filled with hot water, gradually transforming into white. The key focus is to highlight the thermos cup’s color-changing capability.

該prompt實體較簡單，但傾向于考察水流、熱氣、顏色漸變等細節，流暢的細節變化通常來說較為困難。

Sora-1080P

該維度打分：2.67分
分析：忽略prompt要求的重點，未體現出變色的過程。

可靈1.6

該維度打分：4分
分析：變色過程不完全符合要求，但相對來說較好。

Pixverse-V3

該維度打分：3分
分析：未體現正在加水，變色有體現，但不符合逐漸變白的要求。

MiniMax-Video-01

該維度打分：2.67分
分析：同樣未體現出變色的過程，也無法看出是熱水。

【示例2】：物品生成穩定性（突然出現或消失）

Prompt: 一款創意蛋糕的宣傳廣告。一把餐刀切開了蛋糕，從蛋糕的切口處涌出了草莓醬。
英文prompt：An advertisement for a creative cake. A dining knife slices through the cake, and strawberry sauce flows out from the cut.

該prompt重在考察運動細節及實體之間的交互，模型在“切口處涌出了草莓醬”上表現得各有差異。

Sora-1080P

該維度打分：2.5分
分析：該視頻中果醬多次忽然出現和忽然消失，蛋糕忽然出現缺口，僅針對穩定性較差。

可靈1.6

該維度打分：3.5分

分析：能看到刀的動作導致蛋糕出現切口，果醬的出現比較突兀不合理。

Pixverse-V3

該維度打分：3.5分
分析：果醬和刀的形態穩定，蛋糕的切口出現較為突兀。

MiniMax-Video-01

該維度打分：3分
分析：刀和蛋糕的形態較穩定，符合切開的狀態，但果醬忽然大量出現不合理。

【示例3】：實體畸形

Prompt: 生成一個動畫風格的視頻，內容是一個女孩正在巴黎旅行，她的面前是埃菲爾鐵塔。
英文prompt：Generates an animated-style video of a girl traveling in Paris with the Eiffel Tower in front of her.

Sora-1080P

該維度打分：2.67分
分析：背景鳥群出現明顯畸形及不合理滯空，背景行人有粘連及行走姿態明顯不合理，整體觀感上較為明顯。

可靈1.6

該維度打分：4分
分析：主體人物及建筑物整體的形態均較好，部分背景人物出現輕微畸形，整體對觀感影響較小。

Pixverse-V3

該維度打分：3分
分析：主體人物手指有輕微粘連形變，背景建筑物發生形變，觀感上稍有不合理。

MiniMax-Video-01

該維度打分：3.5分
分析：主體人物手指輕微形變，左側出現的背景人物面部有輕微扭曲，觀感上稍有不合理。

Prompt: 同事們正在辦公室門前交談。
英文prompt：Colleagues are talking in front of the office door.

Sora-1080P

該維度打分：2.5分
分析：人物有明顯的穿模，門發生的形變也較明顯，影響嚴重。

可靈1.6

該維度打分：3.5分
分析：人物整體形象較好，無明顯畸形，部分鏡頭中人物手部存在形變，造成一定的影響。

Pixverse-V3

該維度打分：3分
分析：人物手指形變持續存在且較嚴重，較影響視覺效果。

MiniMax-Video-01

該維度打分：3.5分
分析：人物整體形象較好，無明顯畸形，部分鏡頭中人物手部存在形變，造成一定的影響。

【示例4】：鏡頭技巧

Prompt: 創意視頻，升鏡拉鏡結合，鏡頭從一座繁忙的城市拉升到空中、太空、宇宙外，需要展示出地球是其他宇宙高維生命手中的玻璃球
英文prompt：A creative video combining zoom-in and zoom-out techniques, with the shot pulling up from a bustling city to the sky, into space, and beyond the universe, revealing Earth as a glass ball in the hands of higher-dimensional beings from another universe.

Sora-1080P

該維度打分：3分
分析：拉鏡有所表現，但升鏡體現較差，視頻整體鏡頭表現較單一。

可靈1.6

該維度打分：4分
分析：視頻能較好的體現升鏡、拉鏡，場景變化的過度比較自然，整體流暢。

Pixverse-V3

該維度打分：3.5分
分析：升鏡體現較好，但拉鏡未明確表現，視頻整體場景轉化較流暢。

MiniMax-Video-01

該維度打分：3分
分析：拉鏡有所表現，但升鏡體現較差，視頻整體效果較為突兀。

是怎么評測的？

針對基礎模型，AGI-Eval采用了不同的評測方法及不同的評測方式，包含人工主觀評測、模型打分（modeleval）、眾包評測三種方式，考察模型在不同版本下是否有能力下降、風格等影響導致榜單結果差異，反饋模型綜合能力。

人工評測

評測說明：
給定prompt的視頻，人工從視頻文本一致性、視頻質量、運動質量等維度綜合給被測視頻打1-5絕對值分,并標注出被測視頻的錯誤標簽;視頻采用多輪標注的方式，2人打分結果相同則為該prompt結果，若2人打分diff則進入3標，最終3人平均為被測視頻最終分數。

評測思路：

視頻文本一致性：是否按照prompt的要求生成視頻，包括對物體、人物、場景、風格、運動細節等所有相關要素的描述是否完整遵循。

視頻質量：

合理性：視頻在邏輯、結構、設計、運動軌跡等維度是否符合常規，即，是否符合物理規律。

真實性：視頻具有逼真效果，無明顯AI痕跡。

運動質量：視頻中的運動表現是否流暢、連貫、動態效果是否豐富。

評測集介紹：

根據一致性、運動質量、畫面質量等關鍵性能指標，構建了包含500條中英文對照樣本的黑盒測試集，覆蓋了從動作生成到情緒生成多種復雜場景和能力項及應用場景；在構建中也結合到了物理常識和百科知識，評估生成視頻的真實感和邏輯性。

評測案例：

任務類型：相互影響多實體生成

Prompt：一只貓叫醒了正在睡覺的主人。
模型答案：

評測分析：
視頻綜合打分：3分
一致性：4分，實體生成符合要求，但對于“叫醒”的動作過程體現不完整。
視頻質量：3分，運動過程中人物肢體、貓面部都呈現出變形。
運動質量：3分，運動基本連貫，最后貓爪收回動作不自然，機械感較明顯。

任務類型：實體&動作生成

Prompt：跳水運動員們正在熱身。
模型答案：

評測分析：
視頻綜合打分：1分
一致性：1分，要求的實體及動作完全未體現。
視頻質量：1分，視覺中心的主體畸形，場景下方也存在變形不連貫。
運動質量：2分，下方憑空出現實體，運動連貫性、動態效果、運動幅度均差。

AGI-Eval評測平臺

鑒于傳統評測方式難以充分反映模型的真實水平，AGI-Eval創新性地提出了人機協作評測模式，探索建設高質量評測社區建設。

在這種模式下，參與者可以與最新的大模型共同完成任務，既有助于提高任務完成度又便于建立更加直觀的區分度。

基于前期的一些用戶實驗表明，通過這種方式不僅可以獲得更為簡潔、完善的推理過程描述，還可以進一步提升用戶與大模型之間的互動體驗。

未來，隨著更多類似平臺的出現和發展，相信人機協作將成為評測領域的一個重要發展方向。

人機社區鏈接：https://agi-eval.cn/llmArena/home

AGI-Eval 平臺基于真實數據回流、能力項拆解等方式，自建萬量級私有數據，并經過多次質檢保證準確率。

黑盒100%私有化數據，可保證評測數據不可“穿越”。

從數據建設到模型評測，實現全層級能力項目，一級能力涵蓋指令遵循、交互能力、認知能力（含推理、知識、其他認知能力等）；完美實現自動與人工評測相結合。

對于Chat模型，平臺官方榜單結合主觀、客觀評測結果，中英文權重分布均衡。

客觀評測基于模型打分，可處理具有一定自由度問題，準確率95%+；主觀評測基于三人獨立標注，并記錄細分維度標簽結果，全面診斷模型問題。

想要申請文生視頻測評的朋友可以直接聯系AGI-Eval團隊。

AGI-Eval團隊介紹

AGI-Eval是由上海交通大學、同濟大學、華東師范大學、DataWhale等高校和機構合作發布的大模型評測社區，以“評測助力，讓AI成為人類更好的伙伴”為使命。平臺旨在打造公正、可信、科學、全面的評測生態，號召大眾共同投入到大模型評測工作，參與數據構建及豐富有趣的人機協作比賽，與大模型協同完成復雜任務，實現評測方案共建。

AGI-Eval多模態評測可承接全模態(any toany)模型評測(部分榜單待上線)，歡迎各位模型廠商提報評測合作交流。

文生視頻測評申請方式：

請使用單位郵箱，將測評研究目的、計劃，研究機構、申請者介紹和聯系方式（手機或微信），發送到郵箱。
郵箱:agieval17@gmail.com，標題是：AGI-Eval文生視頻測評申請

責任編輯：姜華來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AGI-Eval團隊：AI視頻生成模型年度橫評，Sora大餅落地，但國產模型仍然領先！

詳細評測對比：Sora VS 國內視頻生成模型

示例對比

【示例1】：文本一致性

【示例2】：物品生成穩定性（突然出現或消失）

【示例3】：實體畸形

【示例4】：鏡頭技巧

是怎么評測的？

人工評測

任務類型：相互影響多實體生成

任務類型：實體&動作生成

AGI-Eval評測平臺

AGI-Eval團隊介紹

文生視頻測評申請方式：