深偽鑑識分析
用於偵測、分析與歸因 AI 生成深偽影像、影片與音訊內容的鑑識技術。
概觀
深偽是 AI 生成的合成媒體——影像、影片或音訊——能逼真地呈現人物說出或做出他們從未實際說過或做過的事。由生成對抗網路(GAN)、擴散模型與神經語音複製系統產出,深偽已從明顯偽造成熟到裸眼下常與真實媒體難以區分的內容。這創造緊迫的鑑識挑戰:如何判定一段媒體是真實還是合成?
深偽鑑識套用傳統媒體鑑識原則——分析元資料、壓縮成品、照明一致性、物理合理性——並搭配 AI 特定偵測方法,利用生成模型遺留的特徵性成品。這些成品源自生成過程本身的數學特性,即使視覺品質達到照片寫實等級仍可偵測。
本文涵蓋跨所有模態(影像、影片、音訊)的深偽內容鑑識分析、可用的偵測工具、現有技術的限制,以及鑑識發現的適當記錄。此領域快速演進,偵測方法與生成方法之間持續進行軍備競賽。
深偽類型
臉部替換深偽
臉部替換深偽將現有影片中的一個人臉替換為另一個人。生成管線通常包含:
- 從來源與目標影片偵測並擷取臉部
- 編碼器-解碼器架構學習兩臉共享的潛在空間
- 將生成的臉混合回目標影片影格
- 後處理以匹配照明、色彩平衡與解析度
鑑識成品包括:混合邊界不一致、臉部邊緣的時間閃爍,以及被替換臉與原身體之間的膚質不符。
臉部再演
臉部再演將「驅動」影片中的臉部表情與頭部動作轉移到「來源」身分上。來源人物的臉被動畫化以配合驅動者的動作。常用於製作公眾人物似乎說出特定話語的影片。
完全合成生成
現代擴散模型(Stable Diffusion、DALL-E、Midjourney)與 GAN(StyleGAN)可從文字描述或隨機雜訊生成完全合成的臉部影像與影片。這些根本沒有來源影片——整個影像都是生成的。
音訊深偽
語音複製系統可從幾秒的參考音訊生成目標人物聲音的語音。現代系統在語言內容與副語言特徵(情感、強調、語速)兩方面都達到高保真。
| 生成方法 | 模態 | 鑑識困難度 | 關鍵成品 |
|---|---|---|---|
| DeepFaceLab(自動編碼器) | 影片 | 中 | 混合邊界、解析度不符 |
| StyleGAN/StyleGAN3 | 影像 | 中高 | 頻率域成品、紋理重複 |
| Stable Diffusion / SDXL | 影像 | 高 | 語意錯誤、文字渲染失敗 |
| Wav2Lip | 影片(唇同步) | 中 | 下巴邊界成品、時間不一致 |
| XTTS / Bark / Tortoise | 音訊 | 高 | 韻律異常、頻譜包絡成品 |
影像深偽偵測
頻率域分析
生成模型在頻率域產出與實體相機捕捉的自然影像不同的特徵性模式。自然影像的頻譜由相機光學系統、感測器特性與場景內容形塑。生成影像的頻譜則由神經網路架構形塑——尤其是用於產生高解析度輸出的上採樣操作。
compute_frequency_spectrum(image_gray) 對灰階影像套用 2D FFT 與 fftshift,回傳對數幅度頻譜,揭露生成模型架構的頻率域成品。
analyze_spectral_artifacts(magnitude_spectrum) 分析頻譜中的 GAN/擴散模型成品。已知成品包括:
- GAN 棋盤紋:來自轉置卷積的週期峰值
- 擴散模型:不尋常的高頻能量分佈
- 上採樣成品:在 Nyquist 相關頻率的頻譜複本
函式計算:依放射狀平均(方位角平均功率頻譜)、棋盤紋分數(徑向剖面導數的標準差/絕對平均值)、高頻/低頻能量比。啟發式判斷:checkerboard_score > 2.0 視為 GAN 成品;hf_ratio < 0.15 或棋盤紋分數 > 2.0 視為可能合成。
像素層級成品偵測
在像素層級,深偽常在臉部邊界、眼睛、牙齒與頭髮附近含診斷上有用的成品。
detect_blending_artifacts(image_rgb, face_mask, edge_width=10) 偵測疑似深偽臉部邊界的混合成品。臉部替換深偽必須將生成臉混合進原影格;此混合過程留下可偵測成品:
- 混合邊界的色彩分佈不連續
- 邊界上的紋理頻率變化
- 臉部與背景之間不一致的雜訊模式
函式使用 binary_dilation/erosion 提取邊界區域,比對臉內/背景/邊界三區的色彩分佈,對每個通道計算不連續性(邊界平均與臉/背景中點的差距,除以臉內標準差);並透過局部變異數比較臉部與背景的雜訊等級。啟發式:平均不連續性 > 0.5 或雜訊比偏離 1.0 超過 0.5 則偵測到成品。
語意一致性分析
AI 生成影像常含生成模型看不到但仔細檢查下明顯的語意錯誤:眼中不一致的反射、不對稱耳環、不可能的手部幾何、不拼成真實單字的文字,以及違反物理的背景元素。
check_semantic_consistency(detection_results) 從臉部地標偵測與物件偵測管線的預計算結果評估語意一致性:
- 眼睛反射一致性:自然照片中眼睛反射應一致,相關性 < 0.7 則 FAIL
- 臉部地標對稱:雙邊對稱分數 < 0.6 則 SUSPICIOUS
- 手部異常:擴散模型輸出常見,手指數非 5 則 FAIL
整體評估:發現 ≥2 則 LIKELY_SYNTHETIC、= 1 則 SUSPICIOUS、否則 NO_ANOMALIES_DETECTED。
_compute_symmetry_score(left, right) 計算臉部地標的雙邊對稱分數,將右側鏡射後與左側計算距離的平均值,再從 1.0 減去。
音訊深偽偵測
頻譜分析
語音複製系統產出的音訊有與麥克風錄製的自然語音不同的特徵性頻譜特性。
analyze_audio_spectrum(audio_samples, sample_rate) 分析音訊中的語音複製成品。檢查頻譜包絡、共振峰一致性與自然/合成語音差異的微時間特徵:
- 以 25ms 視窗、10ms 跳躍計算手動 STFT(漢寧視窗)
- 頻譜平坦度(Wiener 熵):合成語音頻譜能量常較均勻;計算 log 頻譜的幾何平均與算術平均之比
- 時間平滑度:語音複製可能產出過度平滑或過度抖動的轉換
- 高頻聲碼器成品:神經聲碼器在 8kHz 以上常產出特徵性模式;計算高頻能量比
啟發式:mean_flatness > 0.3 或 hf_ratio < 0.05 視為可能合成。
_interpret_audio_analysis(flatness, hf_ratio) 產生可讀解釋:高頻譜平坦度與低高頻內容暗示神經聲碼器合成;升高的頻譜平坦度可能指出合成生成;減少的高頻內容可能指出語音複製受限於頻寬;否則一致於自然語音。
偵測工具
支援深偽鑑識分析的既有工具:
- FaceForensics++:臉部操縱偵測的學術基準與資料集,提供預訓練偵測模型。位於 github.com/ondyari/FaceForensics。
- Microsoft Video Authenticator:Microsoft 分析照片與影片以提供真實性信心分數的工具。
- Sensity(前身為 Deeptrace):媒體組織與政府使用的商業深偽偵測平台。
- Google SynthID:針對 Google AI 模型生成內容的浮水印偵測。
- Resemblyzer:開源語者驗證函式庫,有助於語音深偽分析。位於 github.com/resemble-ai/Resemblyzer。
鑑識報告
文件標準
用於法律程序的深偽鑑識報告應遵循既有的數位鑑識標準(ISO/IEC 27037),為合成媒體調整。關鍵元素:
- 證據保管鏈:媒體如何取得、由誰取得、如何保存
- 分析方法論:套用了哪些偵測方法及為何
- 量化結果:每種方法的偵測分數、信心區間與誤差率
- 方法論限制:分析無法判定什麼(缺乏證據不等於不存在的證據)
- 同儕審查:鑑識結論應由獨立分析師審查
信心溝通
鑑識發現應以適當不確定性溝通:
| 偵測信心 | 陳述範本 |
|---|---|
| > 99% | 「分析高度信心指出此媒體由 [方法] 生成」 |
| 90-99% | 「分析結果一致於 AI 生成;無法排除自然來源」 |
| 70-90% | 「數項指標暗示可能 AI 生成;建議進一步分析」 |
| < 70% | 「無法定論;分析未提供足夠證據判定真實性」 |
限制與反鑑識
偵測方法面臨數項根本限制:
- 泛化缺口:在某種生成方法(如 StyleGAN2)上訓練的偵測器可能在新方法(如 Stable Diffusion 3)的內容上失效
- 後處理:壓縮、調整大小與社群媒體再處理會降級鑑識成品
- 對抗攻擊:生成方法可針對規避已知偵測器優化
- 軍備競賽:每項偵測改進都推動生成改進
鑑識調查人員絕不應依賴單一偵測方法。應使用多個獨立技術,並基於發現的收斂報告整體信心。
參考資料
- Rossler, A., Cozzolino, D., Verdoliva, L., Riess, C., Thies, J., & Niessner, M. (2019). FaceForensics++: Learning to Detect Manipulated Facial Images. Proceedings of the IEEE International Conference on Computer Vision (ICCV). https://arxiv.org/abs/1901.08971
- Frank, J., Eisenhofer, T., Schonherr, L., Fischer, A., Kolossa, D., & Holz, T. (2020). Leveraging Frequency Analysis for Deep Fake Image Recognition. Proceedings of the 37th International Conference on Machine Learning (ICML). https://arxiv.org/abs/2003.08685
- Muller, N. M., Czempin, P., Dieckmann, A., Frober, A., & Boltjes, B. (2022). Does Audio Deepfake Detection Generalize? Proceedings of Interspeech 2022. https://doi.org/10.21437/Interspeech.2022-108