跳至主要內容

主題詞彙表部落格 ATT&CK 導覽器挑戰

Loading...

© 2026 redteams.ai. 保留所有權利。

採用 Next.js

主題詞彙表標籤部落格 ATT&CK 導覽器挑戰

方法論貢獻書籤 RSS 訂閱 GitHub 聯絡我們

隱私權 Cookie 服務條款版權資訊

// stay adversarial

AI 鑑識與事件應變
LLM 輸出浮水印偵測

LLM 輸出浮水印偵測

中級2 分鐘閱讀更新於 2026-03-20

偵測、萃取與分析嵌入於 LLM 生成文字中浮水印的技術,用於來源追蹤與鑑識歸因。

ai-forensics-ir watermarking llm-output provenance

你將學到

先備知識

已完成基礎篇並具備 Python 腳本實務知識。建議熟悉機率論與語言模型採樣基礎。

概觀

LLM 文字浮水印是將不可察覺的統計訊號嵌入模型生成文字中的技術,使得能以統計高信心偵測該文字是否由特定模型產出。與影像浮水印不同,文字浮水印不能依賴像素層級的擾動;必須運作於詞彙/符元層級並與語言的多樣性共存。

主要方案家族:綠/紅列表浮水印(Kirchenbauer 等 2023)透過在採樣時偏向「綠色」符元子集來嵌入訊號;SynthID Text(Google DeepMind)使用錦標賽式 Gumbel 採樣;無失真浮水印使用密碼學簽章確保零品質損失。

從鑑識角度,浮水印偵測提供珍貴但不完美的訊號:對懷疑 AI 產生的文字(抄襲調查、錯誤資訊追蹤、模型濫用事件)提供統計證據,但被攻擊者的反制技術弱化。

浮水印方案

綠/紅列表浮水印(Kirchenbauer 等)

在生成每個符元時,以前一符元(或前幾個符元)為種子的雜湊將詞彙分為「綠」與「紅」兩類。採樣時對綠列表加上 logit 偏差(例如 +2)。結果是生成文字中綠色符元的比例顯著高於隨機文本(約 50%)。

偵測:使用相同雜湊方案重新分類文字中的符元並計算綠色符元比例;若顯著高於 50%(z-test),判定為有浮水印。

優點:實作簡單、需知道雜湊方案與偏差強度即可偵測。缺點:對 paraphrasing、翻譯弱;輕微重寫可使綠色比例回歸 50%。

SynthID Text

Google DeepMind 發展的方案,使用多個錦標賽層在 Gumbel 採樣中嵌入訊號。對每個生成位置,候選符元進行多輪比較,每輪有密碼學決定的「標記函式」。最終選中的符元攜帶統計特徵。

偵測:執行相同錦標賽模擬並計算偵測分數。

優點:比綠/紅列表更穩健於輕度編輯、視覺上不可察覺。缺點:計算較昂貴、需要 Google 的偵測器或開源實作。

無失真浮水印

使用密碼學假說保證生成分佈與無浮水印模型完全相同,但嵌入簽章。偵測需要密鑰。

優點:對文字品質零影響。缺點:實作複雜、需密鑰管理。

鑑識偵測工作流程

偵測管線

WatermarkDetector:

接受疑似 AI 文字作為輸入
嘗試已知的多個浮水印方案:綠/紅列表、SynthID、自訂
對每個方案,計算對應的統計分數(z-score、p-value)
回傳偵測結果:方案、分數、信心、可能來源模型

統計顯著性

計算 z-score:z = (observed_green - expected) / sqrt(variance)
對 Bonferroni 多重比較校正
建議的截斷:z > 4(約 p < 3 × 10⁻⁵)作為高信心判定
報告信心區間,不僅僅是二元判定

文字長度考量

浮水印偵測需要足夠文字以達到統計顯著性。對綠/紅列表,通常需要 ≥ 200 符元。對短文字(推文、簡訊),偵測可能不可靠;應明確說明偵測信心受文字長度限制。

反浮水印攻擊

重寫攻擊

攻擊者使用另一個 LLM(或人類)重寫浮水印文字,替換符元、重組句子。此通常可降低綠/紅列表浮水印分數至背景水平。

偵測對策:檢查語意指紋、使用對重寫更穩健的方案(SynthID Text 或多層浮水印)。

翻譯與回譯攻擊

將文字翻譯到另一個語言再翻譯回來,可破壞浮水印。

替代攻擊

攻擊者學習哪些符元是「紅」,以同義詞替換綠色符元,將其轉為紅色——降低綠色比例。

混合攻擊

攻擊者混入未浮水印的文字,稀釋訊號。偵測應分段分析文字,識別浮水印部分。

在事件回應中的應用

案例:模型濫用歸因

情境:有人透過 OpenAI API 產生錯誤資訊並發布。你懷疑特定員工或契約外包商使用了公司 API。

工作流程:

擷取懷疑內容
執行浮水印偵測(如果供應商提供浮水印,如 SynthID Text)
若偵測到浮水印,對應到模型與時間窗
交叉查詢 API 使用日誌以識別在該時間窗產生類似內容的使用者
將浮水印證據、API 日誌與網路活動整合為事件證據

案例:AI 抄襲調查

對學生/員工文件的分析。浮水印偵測可補充基於風格的 AI 文字分類器,提供更強的統計證據。但應:

清楚傳達偵測信心
永遠提供上下文:短文字、翻譯、編輯過的文字可能導致偵測失效
不將浮水印結果作為唯一證據;結合其他訊號(時間戳、編輯歷史、設備鑑識)

案例:供應鏈調查

若組織懷疑訓練資料被 LLM 生成資料污染,浮水印偵測可確認。這特別相關於自監督訓練與合成資料生成。

限制

缺乏普遍標準:各模型提供者可能使用不同方案,偵測需要方案知識
大多模型不加浮水印:開源模型通常無浮水印
使用者可停用:若使用者能調整採樣參數(如設 top_k、取得 logprobs),可能停用浮水印
假陽性:真實人類文字有時可能展現高「綠色」比例(統計上罕見但可能)
法律考量:浮水印偵測的法律證據力尚未充分確立

參考資料

Kirchenbauer, J., et al. (2023). A Watermark for Large Language Models. ICML.
Dathathri, S., et al. (2024). Scalable watermarking for identifying large language model outputs. Nature.(SynthID Text)
Christ, M., Gunn, S., & Zamir, O. (2024). Undetectable Watermarks for Language Models. COLT.
Krishna, K., et al. (2023). Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense. NeurIPS.

相關文章

進階
浮水印與指紋規避
深入探討偵測與移除輸出浮水印、退化權重浮水印、規避模型指紋辨識、建立出處剝離管線,以及理解模型所有權驗證的法律格局。
進階
AI 浮水印與攻擊
當前針對模型輸出與訓練資料的 AI 浮水印方案、其安全屬性,以及已知可移除、偽造或規避浮水印的攻擊。
進階
為來源追蹤而對 LLM 輸出加浮水印
以進階技術為 LLM 生成文字加浮水印以建立來源記錄,涵蓋部署架構、多位元編碼方案、穩健性考量,以及浮水印在 AI 安全與問責框架中的角色。
中級
輸出浮水印作為防禦
於 LLM 應用中利用輸出浮水印進行內容來源追蹤與濫用偵測。
中級
對抗性輸入鑑識
用於辨識、重建與分析針對操縱 AI 系統行為的對抗性輸入的鑑識技術。

分享至:Twitter / X LinkedIn Reddit Hacker News

在 GitHub 上編輯此頁

AI 系統記憶體鑑識

AI 事件嚴重性評分

本頁目錄

概觀
浮水印方案
綠/紅列表浮水印(Kirchenbauer 等)
SynthID Text
無失真浮水印
鑑識偵測工作流程
偵測管線
統計顯著性
文字長度考量
反浮水印攻擊
重寫攻擊
翻譯與回譯攻擊
替代攻擊
混合攻擊
在事件回應中的應用
案例:模型濫用歸因
案例:AI 抄襲調查
案例:供應鏈調查
限制
參考資料