模型萃取與隱私評量
進階2 分鐘閱讀更新於 2026-03-15
以 9 道題目測試你對模型萃取、模型竊取、成員推論與針對 AI 系統之智慧財產竊取攻擊的進階知識。
模型萃取與隱私評量
本評量涵蓋針對模型本身的進階攻擊:模型萃取(竊取模型權重或行為)、成員推論(判定特定資料是否用於訓練),以及透過 API 模型蒸餾的智慧財產竊取。
Knowledge Check
什麼是「模型萃取」?為何它被視為同時是安全與業務風險?
Knowledge Check
什麼是「logit 鏡頭」技術?它如何協助模型萃取?
Knowledge Check
在 AI 隱私攻擊脈絡中,什麼是「成員推論」?
Knowledge Check
實務上「模型蒸餾」與「模型萃取」如何不同,即使兩者都產生替代模型?
Knowledge Check
什麼是「模型反演」攻擊?它能揭露什麼類型的資訊?
Knowledge Check
什麼防禦技術使模型萃取顯著更昂貴而不退化合法使用者的實用性?
Knowledge Check
為何「轉移攻擊開發」是成功模型萃取最危險的下游後果?
Knowledge Check
模型萃取與訓練資料隱私攻擊的法律與法規意涵為何?
Knowledge Check
模型輸出的「指紋」或「浮水印」如何協助偵測未授權模型萃取?
概念摘要
| 概念 | 描述 | 主要風險 |
|---|---|---|
| 模型萃取 | 透過 API 查詢建立替代 | IP 竊取、啟用白箱攻擊 |
| Logit 利用 | 使用機率輸出進行高效萃取 | 放大萃取效率 |
| 成員推論 | 偵測訓練資料納入 | 隱私侵犯 |
| 模型反演 | 從輸出重建訓練資料 | 資料隱私外洩 |
| 轉移攻擊 | 使用替代進行白箱攻擊開發 | 高效對抗性輸入生成 |
| 模型蒸餾濫用 | 未授權知識轉移 | IP 竊取、ToS 違反 |
| 輸出浮水印 | 透過輸出簽章偵測萃取 | 偵測與歸屬 |
評分指南
| 分數 | 等第 | 下一步 |
|---|---|---|
| 8-9 | 優秀 | 強的模型萃取與隱私知識。進入 隱私攻擊評量。 |
| 6-7 | 熟練 | 檢視錯題的解釋並重溫萃取攻擊文獻。 |
| 4-5 | 發展中 | 多花時間在模型安全與 ML 隱私基礎上。 |
| 0-3 | 需要複習 | 在重新測試前研讀 ML 基礎(訓練、推論、模型服務)。 |
研讀檢查清單
- 我了解透過基於 API 替代訓練的模型萃取
- 我能解釋 logit 存取如何放大萃取效率
- 我了解成員推論攻擊及其隱私意涵
- 我能描述模型反演與訓練資料重建
- 我了解轉移攻擊作為萃取的關鍵動機
- 我能解釋授權蒸餾與萃取之間的差異
- 我知道對抗模型萃取的防禦(雜訊、限制、監控)
- 我了解用於萃取偵測的輸出浮水印
- 我能闡述這些攻擊的法律與法規意涵