在線教程丨北大施柏鑫團隊聯合貝式計算提出視頻實例重繪方法 VIRES,多項性能指標達 SOTA 原創
視頻也能 P 了?
眾所周知,視頻編輯難度極高,若想要調整或替換主體,變換場景、色彩或是移除一個物體,往往意味著無數幀的手動標注、遮罩繪制和精細調色。即使是經驗豐富的后期團隊,也很難在復雜場景中保持編輯內容的時間一致性。近年來,隨著生成式 AI 的快速發展,諸如「一鍵消除」等功能逐漸出現在各類剪輯軟件中,令人們看到了 AI 在視頻編輯方面的巨大潛力。
誠然,在實際應用中,除了「一刀切」的消除功能外,更高頻使用且難度更大的往往在于替換、增加主體等需求,在技術方面涉及更加精準的目標識別、分割,以及視頻生成。而當前的 AI 方法在復雜場景中處理這一類視頻重繪任務時仍存在挑戰,例如,當前很多零樣本方法在處理連續視頻幀時容易造成畫面閃爍;對于背景復雜或多目標場景,可能會出現錯位、模糊或語義偏差。
針對于此,北京大學相機智能實驗室(施柏鑫團隊)聯合 OpenBayes貝式計算,以及北京郵電大學人工智能學院模式識別實驗室李思副教授團隊,共同提出了一種結合草圖與文本引導的視頻實例重繪方法 VIRES,支持對視頻主體的重繪、替換、生成與移除等多種編輯操作。
該方法利用文本生成視頻模型的先驗知識,確保時間上的一致性,同時還提出了帶有標準化自適應縮放機制的 Sequential ControlNet,能夠有效提取結構布局并自適應捕捉高對比度的草圖細節。更進一步地,研究團隊在 DiT(diffusion transformer) backbone 中引入草圖注意力機制,以解讀并注入細顆粒度的草圖語義。實驗結果表明,VIRES 在視頻質量、時間一致性、條件對齊和用戶評分等多方面均優于現有 SOTA 模型。
VIRES 與 5 種現有方法在不同數據集上的多類指標得分
相關研究以「VIRES: Video Instance Repainting via Sketch and Text Guided Generation」為題,已入選 CVPR 2025。
目前,「VIRES:草圖與文本雙引導的視頻重繪」已上線至 HyperAI超神經官網(hyper.ai)的教程板塊,一鍵部署即可在線體驗高質量視頻編輯功能。筆者以定制實例生成為例,在戶外雪地中增加了一只奔跑的柯基,栩栩如生毫無違和感 ??
教程鏈接:??https://go.hyper.ai/49koQ??
我們還為新注冊用戶準備了驚喜福利,使用邀請碼「
VIRES」注冊 OpenBayes 平臺,即可獲得 4 小時 RTX A6000 免費使用時長(資源有效期為 1 個月),數量有限,先到先得!
Demo 運行
1.進入 hyper.ai 首頁后,選擇「教程」頁面,并選擇「VIRES:草圖與文本雙引導的視頻重繪」,點擊「在線運行此教程」。
2.頁面跳轉后,點擊右上角「克隆」,將該教程克隆至自己的容器中。
3.選擇「NVIDIA RTX A6000」以及「PyTorch」鏡像,OpenBayes 平臺提供了 4 種計費方式,大家可以按照需求選擇「按量付費」或「包日/周/月」,點擊「繼續執行」。新用戶使用下方邀請鏈接注冊,可獲得 4 小時 RTX 4090 + 5 小時 CPU 的免費時長!
HyperAI超神經專屬邀請鏈接(直接復制到瀏覽器打開):
??https://openbayes.com/console/signup?r=Ada0322_NR0n??
4.等待分配資源,首次克隆需等待 2 分鐘左右的時間。當狀態變為「運行中」后,點擊「API 地址」旁邊的跳轉箭頭,即可跳轉至 Demo 頁面。由于模型較大,需等待約 3 分鐘顯示 WebUI 界面,否則將顯示「Bad Gateway」。請注意,用戶需在實名認證后才能使用 API 地址訪問功能。
效果演示
點擊 API 地址即可直接體驗該模型,如下圖所示。我們已經在教程中為大家準備了多個示例,歡迎體驗!
筆者以「定制實例生成」為例,在在戶外雪地中增加了一只奔跑的柯基,栩栩如生毫無違和感!
??原視頻可在「HyperAI超神經」公眾號同名文章觀看~??
* prompt:
The video showcases a delightful scene of a corgi dog joyfully running back and forth in a snowy park. The park is adorned with trees and a playground in the background, setting a picturesque winter atmosphere. The corgi, with its orange and white fur and expressive eyes, repeatedly runs towards and away from the camera, kicking up snow with its paws and displaying a playful demeanor. The dog's fur appears glossy and silky, and its tail is energetically wagging throughout the video, highlighting its excitement and energy. The video captures the corgi's movements in detail, focusing on its bright eyes, muscular legs, and agile form as it frolics in the snow. The creator likely intended to share a heartwarming and visually appealing moment that showcases the joy and liveliness of a beloved pet in a beautiful snowy setting.
以上就是 HyperAI超神經本期推薦的教程,歡迎大家前來體驗!
教程鏈接:??https://go.hyper.ai/49koQ??
