LLM 輸出浮水印偵測
偵測、萃取與分析嵌入於 LLM 生成文字中浮水印的技術,用於來源追蹤與鑑識歸因。
概觀
LLM 文字浮水印是將不可察覺的統計訊號嵌入模型生成文字中的技術,使得能以統計高信心偵測該文字是否由特定模型產出。與影像浮水印不同,文字浮水印不能依賴像素層級的擾動;必須運作於詞彙/符元層級並與語言的多樣性共存。
主要方案家族:綠/紅列表浮水印(Kirchenbauer 等 2023)透過在採樣時偏向「綠色」符元子集來嵌入訊號;SynthID Text(Google DeepMind)使用錦標賽式 Gumbel 採樣;無失真浮水印使用密碼學簽章確保零品質損失。
從鑑識角度,浮水印偵測提供珍貴但不完美的訊號:對懷疑 AI 產生的文字(抄襲調查、錯誤資訊追蹤、模型濫用事件)提供統計證據,但被攻擊者的反制技術弱化。
浮水印方案
綠/紅列表浮水印(Kirchenbauer 等)
在生成每個符元時,以前一符元(或前幾個符元)為種子的雜湊將詞彙分為「綠」與「紅」兩類。採樣時對綠列表加上 logit 偏差(例如 +2)。結果是生成文字中綠色符元的比例顯著高於隨機文本(約 50%)。
偵測:使用相同雜湊方案重新分類文字中的符元並計算綠色符元比例;若顯著高於 50%(z-test),判定為有浮水印。
優點:實作簡單、需知道雜湊方案與偏差強度即可偵測。 缺點:對 paraphrasing、翻譯弱;輕微重寫可使綠色比例回歸 50%。
SynthID Text
Google DeepMind 發展的方案,使用多個錦標賽層在 Gumbel 採樣中嵌入訊號。對每個生成位置,候選符元進行多輪比較,每輪有密碼學決定的「標記函式」。最終選中的符元攜帶統計特徵。
偵測:執行相同錦標賽模擬並計算偵測分數。
優點:比綠/紅列表更穩健於輕度編輯、視覺上不可察覺。 缺點:計算較昂貴、需要 Google 的偵測器或開源實作。
無失真浮水印
使用密碼學假說保證生成分佈與無浮水印模型完全相同,但嵌入簽章。偵測需要密鑰。
優點:對文字品質零影響。 缺點:實作複雜、需密鑰管理。
鑑識偵測工作流程
偵測管線
WatermarkDetector:
- 接受疑似 AI 文字作為輸入
- 嘗試已知的多個浮水印方案:綠/紅列表、SynthID、自訂
- 對每個方案,計算對應的統計分數(z-score、p-value)
- 回傳偵測結果:方案、分數、信心、可能來源模型
統計顯著性
- 計算 z-score:z = (observed_green - expected) / sqrt(variance)
- 對 Bonferroni 多重比較校正
- 建議的截斷:z > 4(約 p < 3 × 10⁻⁵)作為高信心判定
- 報告信心區間,不僅僅是二元判定
文字長度考量
浮水印偵測需要足夠文字以達到統計顯著性。對綠/紅列表,通常需要 ≥ 200 符元。對短文字(推文、簡訊),偵測可能不可靠;應明確說明偵測信心受文字長度限制。
反浮水印攻擊
重寫攻擊
攻擊者使用另一個 LLM(或人類)重寫浮水印文字,替換符元、重組句子。此通常可降低綠/紅列表浮水印分數至背景水平。
偵測對策:檢查語意指紋、使用對重寫更穩健的方案(SynthID Text 或多層浮水印)。
翻譯與回譯攻擊
將文字翻譯到另一個語言再翻譯回來,可破壞浮水印。
替代攻擊
攻擊者學習哪些符元是「紅」,以同義詞替換綠色符元,將其轉為紅色——降低綠色比例。
混合攻擊
攻擊者混入未浮水印的文字,稀釋訊號。偵測應分段分析文字,識別浮水印部分。
在事件回應中的應用
案例:模型濫用歸因
情境:有人透過 OpenAI API 產生錯誤資訊並發布。你懷疑特定員工或契約外包商使用了公司 API。
工作流程:
- 擷取懷疑內容
- 執行浮水印偵測(如果供應商提供浮水印,如 SynthID Text)
- 若偵測到浮水印,對應到模型與時間窗
- 交叉查詢 API 使用日誌以識別在該時間窗產生類似內容的使用者
- 將浮水印證據、API 日誌與網路活動整合為事件證據
案例:AI 抄襲調查
對學生/員工文件的分析。浮水印偵測可補充基於風格的 AI 文字分類器,提供更強的統計證據。但應:
- 清楚傳達偵測信心
- 永遠提供上下文:短文字、翻譯、編輯過的文字可能導致偵測失效
- 不將浮水印結果作為唯一證據;結合其他訊號(時間戳、編輯歷史、設備鑑識)
案例:供應鏈調查
若組織懷疑訓練資料被 LLM 生成資料污染,浮水印偵測可確認。這特別相關於自監督訓練與合成資料生成。
限制
- 缺乏普遍標準:各模型提供者可能使用不同方案,偵測需要方案知識
- 大多模型不加浮水印:開源模型通常無浮水印
- 使用者可停用:若使用者能調整採樣參數(如設 top_k、取得 logprobs),可能停用浮水印
- 假陽性:真實人類文字有時可能展現高「綠色」比例(統計上罕見但可能)
- 法律考量:浮水印偵測的法律證據力尚未充分確立
參考資料
- Kirchenbauer, J., et al. (2023). A Watermark for Large Language Models. ICML.
- Dathathri, S., et al. (2024). Scalable watermarking for identifying large language model outputs. Nature.(SynthID Text)
- Christ, M., Gunn, S., & Zamir, O. (2024). Undetectable Watermarks for Language Models. COLT.
- Krishna, K., et al. (2023). Paraphrasing evades detectors of AI-generated text, but retrieval is an effective defense. NeurIPS.