成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AGI-Eval團隊:AI視頻生成模型年度橫評,Sora大餅落地,但國產模型仍然領先!

人工智能
AGI-Eval通過構建上百條評測數據和專家級人工評測團隊,對Sora 、及國產頭部視頻生成模型進行了更深度的專業評測。

說到2024年AI圈的熱門話題,當然不能錯過視頻生成模型了!

即使是在12月,國內外視頻模型的更新腳步依舊沒有放緩。其中以Sora、可靈AI為代表。

12月9日,OpenAI正式推出視頻產品Sora。用戶可以創建任意長寬比例的分辨率高達1080p(最長 20 秒)的視頻,可接收文本、圖像和視頻輸入并生成新視頻作為輸出。

12月19日,可靈AI宣布基座模型再升級,視頻生成推出可靈1.6模型,文本響應度、畫面美感及運動合理性,均有明顯提升,畫面更穩定更生動,同時支持標準和高品質模式,特別是1.6模型的圖生視頻,內部評測比 1.5 模型整體效果提升195%。

視頻模型競爭激烈,評測榜單也變得尤為重要。

AGI-Eval通過構建上百條評測數據和專家級人工評測團隊,對Sora 、及國產頭部視頻生成模型進行了更深度的專業評測。

主要結論有以下3個:

結論1

與國內頭部大模型(國內前三)相比,Sora在視頻-文本一致性維度、視頻質量上均有小幅落后。總體來看,國內大模型仍保持領先水平。

結論2

Sora在運動質量維度表現略好于可靈1.6,即生成的視頻畫面在動態過程中的主體一致性和動態幅度更自然。

結論3

在視頻-文本一致性維度上,Sora存在文本理解有誤、指令遵循不符的問題,即生成的視頻內容與提示詞的描述不符的現象。

詳細的榜單排名如下,評測維度包括視頻-文本一致性 、視頻質量(含真實性、合理性) 、運動質量等,確保評測結果反饋模型真實水平。

圖片

注:以上數據為示例,具體評分請參考AGI-Eval評測社區平臺的最新數據。

榜單數據經過歸一化處理,與原始分值有所區別,但排名一致。

圖片

AGI-Eval平臺鏈接:https://agi-eval.cn/mvp/listSummaryIndex

詳細評測對比:Sora VS 國內視頻生成模型

一起來看看詳細的測評結果。

從視頻生成的整體效果來看,Sora在視頻質量、創作自由度、風格支持等方面的表現更優,尤其是在動態場景下五官的呈現上更為細致。

示例對比

【示例1】:文本一致性

Prompt: 地上放著一個籃球、面包和背包,鏡頭跟隨勞累的運動員來到物品面前,拿起一樣物品用來補充能量。
英文prompt:There is a basketball, a loaf of bread, and a backpack on the ground. The camera follows the exhausted athlete as he approaches the items and picks up one of them to replenish his energy.

該prompt本身較為復雜,同時存在多個實體、人物狀態表現,且需要模型進行正確的推理,考察的能力更加全面。

Sora-1080P

圖片

該維度打分:2分
分析:要求生成的實體中,背包缺失,面包表現較差,丟失實體特征;人物動作”拿起“不符合,無法判斷是否符合推理正確的物體。

可靈1.6

圖片

該維度打分:2.67分
分析:要求生成的實體中,面包缺失,”拿起“的動作有趨勢但表現較差,同樣無法判斷是否符合推理正確的物體。

Pixverse-V3

圖片

該維度打分:3.5分
分析:要求生成的實體及人物動作“拿起”均滿足,也能達成正確的推理,理解需要拿的是面包,但不符合鏡頭跟隨和人物動作“來到”,相對來說已經表現得不錯。

MiniMax-Video-01

圖片

該維度打分:3分
分析:要求生成的實體中,面包缺失,“拿起”動作不符合,但推理正確,理解需要拿的是面包。

Prompt:高溫變色馬克杯廣告。一個黑色高溫變色馬克杯正被加入熱水,逐漸變成白色的過程。重點需要突出馬克杯的變色能力。
英文prompt:High-temperature color-changing thermos advertisement. A black high-temperature color-changing thermos cup is being filled with hot water, gradually transforming into white. The key focus is to highlight the thermos cup’s color-changing capability.

該prompt實體較簡單,但傾向于考察水流、熱氣、顏色漸變等細節,流暢的細節變化通常來說較為困難。

Sora-1080P

圖片

該維度打分:2.67分
分析:忽略prompt要求的重點,未體現出變色的過程。

可靈1.6

圖片

該維度打分:4分
分析:變色過程不完全符合要求,但相對來說較好。

Pixverse-V3

圖片

該維度打分:3分
分析:未體現正在加水,變色有體現,但不符合逐漸變白的要求。

MiniMax-Video-01

圖片

該維度打分:2.67分
分析:同樣未體現出變色的過程,也無法看出是熱水。

【示例2】:物品生成穩定性(突然出現或消失)

Prompt: 一款創意蛋糕的宣傳廣告。一把餐刀切開了蛋糕,從蛋糕的切口處涌出了草莓醬。
英文prompt:An advertisement for a creative cake. A dining knife slices through the cake, and strawberry sauce flows out from the cut.

該prompt重在考察運動細節及實體之間的交互,模型在“切口處涌出了草莓醬”上表現得各有差異。

Sora-1080P

該維度打分:2.5分
分析:該視頻中果醬多次忽然出現和忽然消失,蛋糕忽然出現缺口,僅針對穩定性較差。

可靈1.6

圖片

該維度打分:3.5分

分析:能看到刀的動作導致蛋糕出現切口,果醬的出現比較突兀不合理。

Pixverse-V3

圖片

該維度打分:3.5分
分析:果醬和刀的形態穩定,蛋糕的切口出現較為突兀。

MiniMax-Video-01

圖片

該維度打分:3分
分析:刀和蛋糕的形態較穩定,符合切開的狀態,但果醬忽然大量出現不合理。

【示例3】:實體畸形

Prompt: 生成一個動畫風格的視頻,內容是一個女孩正在巴黎旅行,她的面前是埃菲爾鐵塔。
英文prompt:Generates an animated-style video of a girl traveling in Paris with the Eiffel Tower in front of her.

Sora-1080P

圖片

該維度打分:2.67分
分析:背景鳥群出現明顯畸形及不合理滯空,背景行人有粘連及行走姿態明顯不合理,整體觀感上較為明顯。

可靈1.6

圖片

該維度打分:4分
分析:主體人物及建筑物整體的形態均較好,部分背景人物出現輕微畸形,整體對觀感影響較小。

Pixverse-V3

圖片

該維度打分:3分
分析:主體人物手指有輕微粘連形變,背景建筑物發生形變,觀感上稍有不合理。

MiniMax-Video-01

圖片

該維度打分:3.5分
分析:主體人物手指輕微形變,左側出現的背景人物面部有輕微扭曲,觀感上稍有不合理。

Prompt: 同事們正在辦公室門前交談。
英文prompt:Colleagues are talking in front of the office door.

Sora-1080P

圖片

該維度打分:2.5分
分析:人物有明顯的穿模,門發生的形變也較明顯,影響嚴重。

可靈1.6

圖片

該維度打分:3.5分
分析:人物整體形象較好,無明顯畸形,部分鏡頭中人物手部存在形變,造成一定的影響。

Pixverse-V3

圖片

該維度打分:3分
分析:人物手指形變持續存在且較嚴重,較影響視覺效果。

MiniMax-Video-01

圖片

該維度打分:3.5分
分析:人物整體形象較好,無明顯畸形,部分鏡頭中人物手部存在形變,造成一定的影響。

【示例4】:鏡頭技巧

Prompt: 創意視頻,升鏡拉鏡結合,鏡頭從一座繁忙的城市拉升到空中、太空、宇宙外,需要展示出地球是其他宇宙高維生命手中的玻璃球
英文prompt:A creative video combining zoom-in and zoom-out techniques, with the shot pulling up from a bustling city to the sky, into space, and beyond the universe, revealing Earth as a glass ball in the hands of higher-dimensional beings from another universe.

Sora-1080P

圖片

該維度打分:3分
分析:拉鏡有所表現,但升鏡體現較差,視頻整體鏡頭表現較單一。

可靈1.6

圖片

該維度打分:4分
分析:視頻能較好的體現升鏡、拉鏡,場景變化的過度比較自然,整體流暢。

Pixverse-V3

圖片

該維度打分:3.5分
分析:升鏡體現較好,但拉鏡未明確表現,視頻整體場景轉化較流暢。

MiniMax-Video-01

圖片

該維度打分:3分
分析:拉鏡有所表現,但升鏡體現較差,視頻整體效果較為突兀。

是怎么評測的?

針對基礎模型,AGI-Eval采用了不同的評測方法及不同的評測方式,包含人工主觀評測、模型打分(modeleval)、眾包評測三種方式,考察模型在不同版本下是否有能力下降、風格等影響導致榜單結果差異,反饋模型綜合能力。

人工評測

評測說明
給定prompt的視頻,人工從視頻文本一致性、視頻質量、運動質量等維度綜合給被測視頻打1-5絕對值分,并標注出被測視頻的錯誤標簽;視頻采用多輪標注的方式,2人打分結果相同則為該prompt結果,若2人打分diff則進入3標,最終3人平均為被測視頻最終分數。

評測思路

視頻文本一致性:是否按照prompt的要求生成視頻,包括對物體、人物、場景、風格、運動細節等所有相關要素的描述是否完整遵循。

視頻質量

合理性:視頻在邏輯、結構、設計、運動軌跡等維度是否符合常規,即,是否符合物理規律。

真實性:視頻具有逼真效果,無明顯AI痕跡。

運動質量:視頻中的運動表現是否流暢、連貫、動態效果是否豐富。

評測集介紹

根據一致性、運動質量、畫面質量等關鍵性能指標,構建了包含500條中英文對照樣本的黑盒測試集,覆蓋了從動作生成到情緒生成多種復雜場景和能力項及應用場景;在構建中也結合到了物理常識和百科知識,評估生成視頻的真實感和邏輯性。

評測案例

任務類型:相互影響多實體生成

Prompt:一只貓叫醒了正在睡覺的主人。
模型答案:

圖片

評測分析:
視頻綜合打分:3分
一致性:4分,實體生成符合要求,但對于“叫醒”的動作過程體現不完整。
視頻質量:3分,運動過程中人物肢體、貓面部都呈現出變形。
運動質量:3分,運動基本連貫,最后貓爪收回動作不自然,機械感較明顯。

任務類型:實體&動作生成

Prompt:跳水運動員們正在熱身。
模型答案:

圖片

評測分析:
視頻綜合打分:1分
一致性:1分,要求的實體及動作完全未體現。
視頻質量:1分,視覺中心的主體畸形,場景下方也存在變形不連貫。
運動質量:2分,下方憑空出現實體,運動連貫性、動態效果、運動幅度均差。

AGI-Eval評測平臺

鑒于傳統評測方式難以充分反映模型的真實水平,AGI-Eval創新性地提出了人機協作評測模式,探索建設高質量評測社區建設。

在這種模式下,參與者可以與最新的大模型共同完成任務,既有助于提高任務完成度又便于建立更加直觀的區分度。

基于前期的一些用戶實驗表明,通過這種方式不僅可以獲得更為簡潔、完善的推理過程描述,還可以進一步提升用戶與大模型之間的互動體驗。

未來,隨著更多類似平臺的出現和發展,相信人機協作將成為評測領域的一個重要發展方向。

圖片

  人機社區鏈接:https://agi-eval.cn/llmArena/home

AGI-Eval 平臺基于真實數據回流、能力項拆解等方式,自建萬量級私有數據,并經過多次質檢保證準確率。

黑盒100%私有化數據,可保證評測數據不可“穿越”。

從數據建設到模型評測,實現全層級能力項目,一級能力涵蓋指令遵循、交互能力、認知能力(含推理、知識、其他認知能力等);完美實現自動與人工評測相結合。

對于Chat模型,平臺官方榜單結合主觀、客觀評測結果,中英文權重分布均衡。

客觀評測基于模型打分,可處理具有一定自由度問題,準確率95%+;主觀評測基于三人獨立標注,并記錄細分維度標簽結果,全面診斷模型問題。

圖片

想要申請文生視頻測評的朋友可以直接聯系AGI-Eval團隊。

AGI-Eval團隊介紹

AGI-Eval是由上海交通大學、同濟大學、華東師范大學、DataWhale等高校和機構合作發布的大模型評測社區,以“評測助力,讓AI成為人類更好的伙伴”為使命。平臺旨在打造公正、可信、科學、全面的評測生態,號召大眾共同投入到大模型評測工作,參與數據構建及豐富有趣的人機協作比賽,與大模型協同完成復雜任務,實現評測方案共建。

AGI-Eval多模態評測可承接全模態(any toany)模型評測(部分榜單待上線),歡迎各位模型廠商提報評測合作交流。

文生視頻測評申請方式

請使用單位郵箱,將測評研究目的、計劃,研究機構、申請者介紹和聯系方式(手機或微信),發送到郵箱。
郵箱:agieval17@gmail.com,標題是:AGI-Eval文生視頻測評申請

責任編輯:姜華 來源: 量子位
相關推薦

2024-02-19 07:58:01

OpenAI模型GPT

2024-12-24 13:50:00

視頻生成AI

2024-02-19 08:56:00

AI模型

2023-04-03 10:04:44

開源模型

2024-12-12 08:35:58

2024-02-19 08:31:10

SoraAIOpenAI

2021-08-13 15:07:02

模型人工智能深度學習

2024-07-30 11:50:00

視頻生成

2024-10-16 14:10:00

AI視頻生成

2024-11-18 10:50:39

2024-11-08 17:34:38

2024-07-01 13:02:53

2025-02-27 12:44:41

2025-01-08 14:13:53

2024-12-12 10:00:00

2025-05-13 02:00:22

2024-03-18 07:12:05

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产探花在线精品一区二区 | 99久久精品免费看国产小宝寻花 | 国产精品18hdxxxⅹ在线 | 黄色网址大全在线观看 | 久久国产精品亚洲 | 成年精品 | 在线观看av网站永久 | 99精品久久 | 国产欧美日韩综合精品一区二区 | 51ⅴ精品国产91久久久久久 | 久久久综合网 | 亚洲成av | 中文字幕国产 | 91久久国产综合久久91精品网站 | 国产一区二区小视频 | 国产精品日韩欧美一区二区 | 国产欧美一区二区三区久久手机版 | 嫩呦国产一区二区三区av | 一区二区三区在线 | 久草视频观看 | 午夜在线视频一区二区三区 | 国产女人第一次做爰毛片 | 中文字幕日韩欧美 | 欧美日韩一区在线 | 亚洲一二三在线 | 色爱av| 日韩图区 | 午夜视频在线观看视频 | 欧美xxxx性 | 日本在线网址 | 久久伊 | 最新中文字幕第一页视频 | 天天天天操 | 一级毛片大全免费播放 | 九九久久精品 | 美女视频网站久久 | 久久久久久av| 日本久久久一区二区三区 | 欧美一区视频 | 99久久婷婷国产综合精品首页 | 手机av在线|