隱私與資料保護攻擊
對 AI 系統之隱私攻擊概觀,含資料提取、成員推論與模型反轉,配法規意涵與紅隊方法論。
隱私與資料保護攻擊
大型語言模型記憶其訓練資料之片段。此記憶化非錯誤——乃為使模型有用之最佳化過程之副作用。對紅隊員,其造就攻擊面,敏感資料可自模型權重提取而無對原訓練集之存取。
隱私攻擊分類
對 AI 系統之隱私攻擊落入三個類別,每個利用模型儲存並暴露訓練資料之不同面向。
| 攻擊類別 | 揭露什麼 | 需之存取 | 關鍵技術 |
|---|---|---|---|
| 資料提取 | 逐字訓練資料、PII、密鑰 | 查詢存取(黑箱) | 以提示為本之提取、前綴攻擊 |
| 成員推論 | 特定資料是否於訓練集中 | 查詢存取(黑箱) | 影子模型、以 loss 為本之門檻化 |
| 模型反轉 | 訓練資料之重建近似 | 查詢或梯度存取 | 以梯度為本之最佳化、生成式反轉 |
大型語言模型中之記憶化
為何模型記憶
記憶化於模型對特定訓練範例過擬合而非學得一般模式時發生。數個因素增加記憶化風險:
- 資料重複 —— 於訓練語料中多次出現之內容接收成比例更多梯度更新,將其更深嵌入權重
- 資料獨特性 —— 異常內容(格式化 PII、API 金鑰、獨特識別碼)於分布中突出,易於提取
- 模型容量 —— 較大模型具更多可用於儲存特定範例之參數
- 訓練時長 —— 具較低學習率之較長訓練允許模型記憶日益稀有之內容
- 去重缺口 —— 多數訓練管線執行不完美去重,留下強化記憶化之近重複
量測記憶化
研究者以可提取性量化記憶化——引出被記憶序列所需之最小提示長度。可以 5 token 提示提取之字串較需 50 token 者更深被記憶化。
| 記憶化層級 | 可提取性 | 風險層級 | 範例 |
|---|---|---|---|
| 深 | k < 10 token | 關鍵 | 常見樣板、重複 PII |
| 中等 | k = 10-50 token | 高 | 獨特段落、程式碼片段 |
| 淺 | k = 50-200 token | 中 | 稀有段落、異常格式 |
| 最小 | k > 200 token | 低 | 去重、低頻內容 |
攻擊方法論概觀
PII 提取
最直接之隱私攻擊:打造使模型輸出被記憶之個人資訊之提示。技術範圍自簡單 completion 攻擊(「John Smith 之電話號碼為」)至重建目標 PII 周圍之訓練脈絡之精巧前綴攻擊。見專用之 PII 提取技術 頁。
成員推論
決定特定資料點是否用於訓練模型。此為二元分類問題:給予樣本,其是否於訓練集中?關鍵洞察為模型於訓練資料 vs. 未見資料之行為不同——較低 loss、較高信心、較一致輸出。見 成員推論攻擊 頁。
模型反轉
自模型輸出或梯度重建訓練資料之近似。不同於提取(恢復逐字內容),反轉產出共享訓練集統計屬性之合成資料。此對圖像模型特別令人關切,其中臉部與識別特徵可被重建。見 模型反轉攻擊 頁。
攻擊者僅具查詢存取——它們可送輸入並觀察輸出。此為以 API 為本之模型最常見之情境。PII 提取與成員推論於黑箱設定中完全可行。模型反轉較難但以足夠查詢可能。
攻擊者知模型架構並具查詢存取但無權重存取。此啟動更針對性之攻擊:攻擊者可於相似架構訓練影子模型、使用已知分詞以打造精確前綴攻擊,並利用架構知識以最佳化提取查詢。
攻擊者具對模型權重與架構之完整存取(例如開源模型)。此啟動以梯度為本之反轉、對被記憶內容之直接權重分析,與使用內部啟動之成員推論。此設定中可能最強之攻擊。
法規脈絡
隱私攻擊具直接法規意涵。當紅隊展示模型洩漏 PII 時,發現觸發多個框架下之合規義務。
| 法規 | 相關條款 | AI 隱私之意涵 |
|---|---|---|
| GDPR(歐盟) | 第 5(1)(f) 條完整性/機密性、第 17 條刪除權、第 35 條 DPIA | 洩漏訓練資料之模型違反資料保護原則;刪除權需機器遺忘 |
| CCPA/CPRA(加州) | 刪除權、知曉所蒐集資料之權 | 消費者可請求刪除訓練用之資料;記憶化破壞刪除 |
| EU AI Act | 第 10 條資料治理、第 15 條準確度/穩健度 | 高風險 AI 系統必須展示含隱私控制之資料治理 |
| HIPAA(美國醫療) | 受保護健康資訊(PHI)保障 | 於臨床資料訓練且洩漏 PHI 之模型造就責任 |
| SOC 2 | Trust Services Criteria —— Privacy | 隱私控制必須防止經任何通道(含模型輸出)之未授權揭露 |
隱私保護防禦
理解防禦助紅隊員辨識缺口並設計繞過技術。
| 防禦 | 機制 | 限制 |
|---|---|---|
| 差分隱私 | 於訓練中加入校準雜訊以限制每範例影響 | 降低模型效用;不可追加至已訓練之模型 |
| 資料去重 | 移除確切與近重複之訓練樣本 | 無法捕捉所有變體;近重複偵測不完美 |
| 機器遺忘 | 於訓練後移除特定資料點之影響 | 近似方法可能留下殘留記憶化;驗證困難 |
| 輸出過濾 | 於模型輸出中偵測並編輯 PII | 以模式為本;錯失新穎格式、編碼資料、部分洩漏 |
| 檢索守衛 | 將敏感資料分離為受控檢索而非訓練 | 不處理已於權重中記憶化之資料 |
紅隊委任框架
範圍隱私敏感資料類別
辨識何種 PII、PHI、財務資料或專有內容可能於訓練資料中。審查資料處理協議與訓練資料文件。
評估記憶化風險
評估模型大小、訓練資料特徵與去重實踐。於較少去重資料上訓練更久之較大模型具較高記憶化風險。
執行提取攻擊
執行針對性 PII 提取、前綴 completion 攻擊與成員推論探測。若可用,以已知訓練資料樣本開始。
測試防禦有效性
嘗試繞過輸出過濾器、差分隱私保證與遺忘聲明。記錄成功提取與過濾器逃避。
以法規映射回報
將每個發現映射至適用法規。量化暴露:多少記錄可提取、何類別之 PII,與何違規通知義務適用。
相關主題
- PII 提取技術 -- 詳細提取方法與現實世界範例
- 成員推論攻擊 -- 決定訓練資料成員
- 模型反轉攻擊 -- 自模型輸出重建訓練資料
- RAG 管線利用 -- 補充隱私利用之 RAG 攻擊
- 訓練攻擊 -- 含資料投毒之訓練時攻擊
紅隊發現生產 LLM 可於特定前綴提示時輸出逐字 email 地址。模型於歐盟部署並處理客戶資料。最立即觸發之法規義務為何?