成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態(tài)大模型改造人臉防偽檢測,廈大騰訊優(yōu)圖等研究入選CVPR 2025

人工智能 新聞
語言模態(tài)讓偽造檢測任務不止停留在“看得見”,更能“講得清”。

近年來,人臉合成技術在快速發(fā)展,相關檢測任務也逐漸從“看得出來”向“說明白為什么”演進。除了判斷一張臉是真還是假,更需要模型能“說出個所以然”。

在CVPR 2025的工作《Towards General Visual-Linguistic Face Forgery Detection》中,研究團隊嘗試從視覺+語言的多模態(tài)視角來改進偽造檢測方法。

本文提出了一種簡單有效的訓練范式,并圍繞數(shù)據(jù)標注問題,構建了一個高質量的文本生成流程。

為什么要引入語言模態(tài)?

在偽造檢測任務中加入語言,有兩個直接的好處:

  • 第一,提升可解釋性。比起真和假的這種二元黑盒輸出,如果模型能進一步說明“假在哪里”“怎么假”,無論是用于分析溯源,還是輔助下游任務,都更有價值;
  • 第二,激活預訓練知識。現(xiàn)有的一些視覺backbone(如CLIP、LLaVA)等被證明能力已經(jīng)高于很多純視覺預訓練模型,而這些模型在下游任務的潛在的知識需要語言模態(tài)來激活。所以我們希望它們的語言模態(tài)不僅能輔助理解圖像細節(jié),還能提高模型的遷移能力和泛化表現(xiàn)。

因此,團隊提出了如圖所示的一個新的多模態(tài)訓練框架:

圖片

△圖1:視覺語言偽造檢測訓練范式

該方法的關鍵在于:不再直接用圖像做二分類判斷,而是先為偽造圖像生成文本描述,再通過這些圖文對來聯(lián)合微調多模態(tài)模型,比如CLIP或mLLM。這樣訓練后的模型不僅能判斷偽造,還能在語言中“指出問題所在”。

但問題也隨之而來——

數(shù)據(jù)從哪里來?

多模態(tài)任務的關鍵是高質量標注數(shù)據(jù)。而偽造檢測任務相比于傳統(tǒng)的圖文匹配,難度在于:

  • 它是一種更偏底層的任務,涉及的偽造往往是非常微妙的局部特征(比如鼻梁稍微歪了一點、嘴角顏色糊了一點);
  • 要準確地用語言描述這些細節(jié),遠沒有那么容易。

目前社區(qū)主流的做法大概有兩類:

  • 人工眾包標注(如DD-VQA);
  • 利用大模型(如GPT-4o)生成偽造描述。

但實驗發(fā)現(xiàn),兩種方式都存在較明顯的問題,尤其在高質量偽造圖像中,容易出現(xiàn)“看花眼”的情況——模型或者標注人可能會誤判沒有問題的區(qū)域,產(chǎn)生所謂的“語言幻覺”。

如下圖所示,僅嘴部被修改的偽造圖,GPT和人工標注都錯誤地指出了鼻子區(qū)域:

圖片

△圖2:現(xiàn)有偽造文本標注容易出現(xiàn)幻覺

此外,真實圖像該怎么標注?要不要也寫一段文字描述?怎么寫才不誤導模型?這些問題都說明:需要一個系統(tǒng)化的、高可信度的標注流程

FFTG偽造文本生成流程

針對上述挑戰(zhàn),研究團隊提出了FFTG(人臉偽造文本生成器),這是一種新穎的標注流程,通過結合偽造掩碼指導和結構化提示策略,生成高精度的文本標注。

圖片

△圖3:FFTG標注流程

FFTG 標注流程主要分為兩個核心階段:原始標注生成 (Raw Annotation Generation) 和 標注優(yōu)化 (Annotation Refinement)。

第一階段:原始標注生成

在這一階段,F(xiàn)FTG利用真實圖像和對應的偽造圖像,通過精確的計算分析生成高準確度的初始標注:

1、掩碼生成 (Mask Generation):

  • 通過計算真實圖像和偽造圖像之間的像素級差異,生成偽造掩碼 M
  • 掩碼值被歸一化到 [0,1] 范圍,突顯操作強度較大的區(qū)域

2、偽造區(qū)域提取 (Forgery Region Extraction):

  • 基于面部特征點將人臉劃分為四個關鍵區(qū)域:嘴部、鼻子、眼睛和整個臉部
  • 計算每個區(qū)域內掩碼 M 的平均值,并設置閾值 θ 判斷該區(qū)域是否被篡改
  • 形成偽造區(qū)域列表,并從中隨機選擇一個區(qū)域進行下一步分析

3、偽造類型判定 (Forgery Type Decision): 設計了五種典型的偽造類型判斷標準:

  • 顏色差異 (Color Difference):通過 Lab 色彩空間中的均值和方差差異檢測
  • 模糊 (Blur):使用拉普拉斯算子量化局部模糊程度
  • 結構異常 (Structure Abnormal):使用 SSIM 指數(shù)衡量結構變形
  • 紋理異常 (Texture Abnormal):通過灰度共生矩陣 (GLCM) 對比度衡量紋理清晰度
  • 邊界融合 (Blend Boundary):分析融合邊界的梯度變化、邊緣過渡和頻域特征

4、自然語言描述轉換:

  • 將識別出的偽造區(qū)域和類型轉換為自然語言表達
  • 如”Texture Abnormal”轉換為”lacks natural texture”,”Color Difference”轉換為”has inconsistent colors”

此階段生成的原始標注雖然結構相對固定,但準確度極高,為后續(xù)優(yōu)化提供了可靠基礎。

第二階段:標注優(yōu)化

為增加標注的多樣性和自然流暢性,F(xiàn)FTG 使用多模態(tài)大語言模型(如 GPT-4o-mini)進行標注優(yōu)化,同時設計了全面的提示策略防止幻覺:

1、視覺提示 (Visual Prompt):

  • 將真實和偽造人臉圖像作為配對輸入提供給大模型
  • 這種對比方式使模型能通過直接比較識別偽造痕跡,減少幻覺
  • 保持偽造檢測視角,避免生成與偽造無關的描述

2、指導提示 (Guide Prompt):

  • 將前一階段生成的原始標注作為指導提供給大模型
  • 附帶詳細解釋每種偽造類型的判定標準(如紋理異常是如何通過 GLCM 分析確定的)
  • 強化技術依據(jù),減少主觀臆斷

3、任務描述提示 (Task Description Prompt):

  • 設定專家級偽造檢測任務情境
  • 提供分析視覺證據(jù)和生成綜合描述的具體要求
  • 引導模型進行逐步推理

4、預定義提示 (Pre-defined Prompt):

  • 規(guī)定輸出格式(如 JSON 結構)
  • 要求包含特定短語(如”This is a real/fake face”)
  • 確保不同樣本的標注格式一致

下游微調:雙路模型訓練策略

有了高質量的圖文標注數(shù)據(jù),接下來的問題是:如何充分利用這些數(shù)據(jù)來訓練模型?研究團隊提出了兩種不同的訓練策略,分別針對CLIP架構和多模態(tài)大語言模型(MLLM),注意本文的目的主要是驗證數(shù)據(jù)的有效性,所以才去了相對簡單的微調方式:

CLIP三分支訓練架構

對于CLIP這類經(jīng)典的雙塔結構模型,團隊設計了一種三分支聯(lián)合訓練框架,如圖4所示。

這種訓練方法結合了單模態(tài)和多模態(tài)的學習目標:

1、圖像特征分類(Image Feature Classification):直接使用圖像編碼器提取的特征進行真?zhèn)味诸悾WC模型在純視覺輸入下的基本檢測能力。

2、多模態(tài)特征對齊(Multimodal Feature Alignment):通過對比學習,使圖像特征和對應的文本特征在表示空間中對齊,并且激活CLIP預訓練時獲得的跨模態(tài)理解能力。

3、多模態(tài)特征融合分類(Multimodal Feature Classification):通過注意力機制融合視覺和文本特征,引導模型學習跨模態(tài)的偽造證據(jù)整合能力

這三個分支的損失函數(shù)共同優(yōu)化,使模型既能獨立運行,又能充分利用文本信息來增強檢測能力。

MLLM微調方法

對于如LLaVA這類多模態(tài)大語言模型,采用了一種更為直接的微調方法:

圖片

△圖4:MLLM微調架構

MLLM通常由三部分組成:視覺編碼器、對齊投影器和大語言模型。策略是:

  1. 固定預訓練好的視覺編碼器參數(shù),專注于微調對齊投影器和大語言模型部分
  2. 設計簡潔有效的提示模板:”Do you think this image is of a real face or a fake one? Please provide your reasons.”
  3. 這種雙部分提示不僅引導模型做出二分判斷,還要求提供可解釋的理由。

實驗:多維度驗證FFTG的有效性

為了全面評估提出的方法,團隊在多個偽造檢測基準數(shù)據(jù)集上進行了廣泛實驗,包括FaceForensics++、DFDC-P、DFD、CelebDF等。

標注質量評估

首先,比較了不同標注方法的質量:

圖片

△表1:不同標注方法的質量對比

結果表明,F(xiàn)FTG在所有指標上都顯著優(yōu)于現(xiàn)有方法。特別是在精度上,F(xiàn)FTG比人工標注高出27個百分點,比直接使用GPT-4o-mini高出28個百分點,證明了該研究的掩碼引導和結構化提示策略能有效減少”幻覺”問題。

跨數(shù)據(jù)集泛化能力評估

在FF++數(shù)據(jù)集上訓練模型,并在其他四個未見過的數(shù)據(jù)集上測試,評估方法的泛化能力:

圖片

△表2:跨數(shù)據(jù)集泛化性能對比

在所有未見過的數(shù)據(jù)集上,該研究的方法都取得了性能提升。

可視化分析

團隊對模型的注意力機制進行了可視化分析,進一步驗證了FFTG的有效性:

圖片

△圖5:不同方法的注意力可視化對比

可以看到,使用FFTG標注訓練的模型能夠更精確地關注真正的偽造區(qū)域,而基線方法的注意力更為分散或錯位。例如,在NeuralTextures的例子中,該方法準確聚焦在嘴部區(qū)域的微妙變化,而其他方法則在未被篡改的區(qū)域產(chǎn)生錯誤激活。

總結

語言模態(tài)讓偽造檢測任務不止停留在“看得見”,更能“講得清”。

如果你也關注偽造檢測的可解釋性和泛化性,歡迎進一步了解。為了方便社區(qū)復現(xiàn)與研究,團隊已經(jīng)將標注流程和生成數(shù)據(jù)集開放:https://github.com/skJack/VLFFD

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-17 02:25:00

工業(yè)異常檢測

2025-01-08 08:21:16

2025-04-25 02:30:00

機械臂大模型多模態(tài)

2024-08-14 14:30:00

AI訓練

2025-05-21 08:47:00

2025-05-07 01:00:00

多模態(tài)大模型AI

2024-12-30 00:01:00

多模態(tài)大模型Python

2023-12-28 09:49:19

AI工具模型

2021-08-03 13:42:34

數(shù)字化

2024-01-25 15:48:56

2024-09-25 14:53:00

2024-12-18 18:57:58

2024-11-13 09:39:13

2023-09-07 20:33:08

2025-06-10 09:04:00

2024-11-11 15:11:23

2024-05-17 16:02:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美aⅴ | 日韩欧美一区在线 | 一级在线 | 国产精品久久 | 黄色免费看 | 国产精品久久久久久久久久三级 | 欧美激情综合 | 一级欧美一级日韩片 | 亚洲欧洲成人 | 9999国产精品欧美久久久久久 | 91精品麻豆日日躁夜夜躁 | 人人草人人干 | 成人性视频免费网站 | 福利网站在线观看 | 国产精品福利视频 | 青青久草| 日韩 欧美 综合 | 国产中文原创 | 欧美在线视频网站 | 中文字幕在线视频免费视频 | 欧洲尺码日本国产精品 | 中文字幕一区二区三区日韩精品 | 亚洲一区中文字幕 | 中文字幕第一页在线 | 老司机久久| 久热国产精品视频 | 欧美在线观看一区 | 在线观看的av| 久久天天综合 | 欧美精品久久久久 | 日韩av高清| 日日操夜夜操视频 | 国产成人精品视频 | 人人叉 | 久久99国产精品 | 在线看亚洲 | 精品成人一区二区 | 国产中文原创 | 亚洲欧美综合精品久久成人 | 亚洲一区二区精品视频 | 亚洲风情在线观看 |