What is PII Extraction Techniques?

Techniques for extracting personally identifiable information from trained language models including prompt-based extraction, prefix attacks, targeted queries, and real-world examples.

What is Membership Inference 攻擊s?

Techniques for determining whether specific data was used to train an AI model, including shadow model approaches, loss-based inference, LiRA, and practical implementation guidance.

What is 模型 Inversion 攻擊s (Data 訓練)?

Techniques for reconstructing training data from model outputs including gradient-based inversion, generative model inversion, and privacy implications for image and language models.

What is 進階模型 Inversion 攻擊s?

Reconstructing training data from model weights and API access using gradient-based inversion, generative model-assisted reconstruction, and membership inference refinement.

隱私與資料保護攻擊

Expert3 min readUpdated 2026-03-13

對 AI 系統之隱私攻擊概觀，含資料提取、成員推論與模型反轉，配法規意涵與紅隊方法論。

privacy data-protection attacks pii

隱私與資料保護攻擊

大型語言模型記憶其訓練資料之片段。此記憶化非錯誤——乃為使模型有用之最佳化過程之副作用。對紅隊員，其造就攻擊面，敏感資料可自模型權重提取而無對原訓練集之存取。

隱私攻擊分類

對 AI 系統之隱私攻擊落入三個類別，每個利用模型儲存並暴露訓練資料之不同面向。

攻擊類別	揭露什麼	需之存取	關鍵技術
資料提取	逐字訓練資料、PII、密鑰	查詢存取（黑箱）	以提示為本之提取、前綴攻擊
成員推論	特定資料是否於訓練集中	查詢存取（黑箱）	影子模型、以 loss 為本之門檻化
模型反轉	訓練資料之重建近似	查詢或梯度存取	以梯度為本之最佳化、生成式反轉

大型語言模型中之記憶化

為何模型記憶

記憶化於模型對特定訓練範例過擬合而非學得一般模式時發生。數個因素增加記憶化風險：

資料重複 —— 於訓練語料中多次出現之內容接收成比例更多梯度更新，將其更深嵌入權重
資料獨特性 —— 異常內容（格式化 PII、API 金鑰、獨特識別碼）於分布中突出，易於提取
模型容量 —— 較大模型具更多可用於儲存特定範例之參數
訓練時長 —— 具較低學習率之較長訓練允許模型記憶日益稀有之內容
去重缺口 —— 多數訓練管線執行不完美去重，留下強化記憶化之近重複

量測記憶化

研究者以可提取性量化記憶化——引出被記憶序列所需之最小提示長度。可以 5 token 提示提取之字串較需 50 token 者更深被記憶化。

記憶化層級	可提取性	風險層級	範例
深	k < 10 token	關鍵	常見樣板、重複 PII
中等	k = 10-50 token	高	獨特段落、程式碼片段
淺	k = 50-200 token	中	稀有段落、異常格式
最小	k > 200 token	低	去重、低頻內容

攻擊者知模型架構並具查詢存取但無權重存取。此啟動更針對性之攻擊：攻擊者可於相似架構訓練影子模型、使用已知分詞以打造精確前綴攻擊，並利用架構知識以最佳化提取查詢。

攻擊者具對模型權重與架構之完整存取（例如開源模型）。此啟動以梯度為本之反轉、對被記憶內容之直接權重分析，與使用內部啟動之成員推論。此設定中可能最強之攻擊。

法規脈絡

隱私攻擊具直接法規意涵。當紅隊展示模型洩漏 PII 時，發現觸發多個框架下之合規義務。

法規	相關條款	AI 隱私之意涵
GDPR（歐盟）	第 5(1)(f) 條完整性／機密性、第 17 條刪除權、第 35 條 DPIA	洩漏訓練資料之模型違反資料保護原則；刪除權需機器遺忘
CCPA/CPRA（加州）	刪除權、知曉所蒐集資料之權	消費者可請求刪除訓練用之資料；記憶化破壞刪除
EU AI Act	第 10 條資料治理、第 15 條準確度／穩健度	高風險 AI 系統必須展示含隱私控制之資料治理
HIPAA（美國醫療）	受保護健康資訊（PHI）保障	於臨床資料訓練且洩漏 PHI 之模型造就責任
SOC 2	Trust Services Criteria —— Privacy	隱私控制必須防止經任何通道（含模型輸出）之未授權揭露

隱私保護防禦

理解防禦助紅隊員辨識缺口並設計繞過技術。

防禦	機制	限制
差分隱私	於訓練中加入校準雜訊以限制每範例影響	降低模型效用；不可追加至已訓練之模型
資料去重	移除確切與近重複之訓練樣本	無法捕捉所有變體；近重複偵測不完美
機器遺忘	於訓練後移除特定資料點之影響	近似方法可能留下殘留記憶化；驗證困難
輸出過濾	於模型輸出中偵測並編輯 PII	以模式為本；錯失新穎格式、編碼資料、部分洩漏
檢索守衛	將敏感資料分離為受控檢索而非訓練	不處理已於權重中記憶化之資料

紅隊委任框架

範圍隱私敏感資料類別
辨識何種 PII、PHI、財務資料或專有內容可能於訓練資料中。審查資料處理協議與訓練資料文件。
評估記憶化風險
評估模型大小、訓練資料特徵與去重實踐。於較少去重資料上訓練更久之較大模型具較高記憶化風險。
執行提取攻擊
執行針對性 PII 提取、前綴 completion 攻擊與成員推論探測。若可用，以已知訓練資料樣本開始。
測試防禦有效性
嘗試繞過輸出過濾器、差分隱私保證與遺忘聲明。記錄成功提取與過濾器逃避。
以法規映射回報
將每個發現映射至適用法規。量化暴露：多少記錄可提取、何類別之 PII，與何違規通知義務適用。

參考資料

Extracting Training Data from Large Language Models (Carlini et al., 2021) -- 訓練資料提取之基礎工作
Scalable Extraction of Training Data from Production Language Models (Nasr et al., 2023) -- 自 ChatGPT 之大規模提取
OWASP Top 10 for LLM Applications -- LLM06: Sensitive Information Disclosure -- LLM 隱私風險之業界標準

隱私與資料保護攻擊

範圍隱私敏感資料類別

評估記憶化風險

執行提取攻擊

測試防禦有效性

以法規映射回報

Learning Path

Related articles

隱私與資料保護攻擊

範圍隱私敏感資料類別

評估記憶化風險

執行提取攻擊

測試防禦有效性

以法規映射回報

Learning Path

Related articles