訓練管線安全評量
進階2 分鐘閱讀更新於 2026-03-15
以 9 道題目測試你對訓練管線攻擊的進階知識,包括資料投毒、微調劫持、RLHF 操縱與後門植入。
訓練管線安全評量
本評量涵蓋針對模型訓練管線的進階攻擊向量:資料投毒、微調劫持、RLHF 偏好操縱、後門植入與訓練資料萃取。這些是影響模型根本行為的供應鏈層級威脅。
Knowledge Check
什麼使訓練資料投毒與提示詞注入等推論時攻擊有根本不同?
Knowledge Check
在被投毒模型脈絡中,什麼是「後門觸發子」?它與一般資料投毒有何不同?
Knowledge Check
攻擊者如何能利用模型供應商提供的微調 API 退化模型的安全對齊?
Knowledge Check
在 LLM 訓練脈絡中,什麼是「臥底代理」投毒?
Knowledge Check
RLHF(基於人類回饋的強化學習)偏好資料如何能被操縱以削弱模型的安全?
Knowledge Check
什麼是「訓練資料萃取」?為何它是隱私疑慮?
Knowledge Check
什麼防禦機制可在訓練管線期間偵測資料投毒,先於它影響模型?
Knowledge Check
「模型合併」如何建立引入不安全行為的潛在向量?
Knowledge Check
在安全微調脈絡中,「災難性遺忘」的安全意涵為何?
概念摘要
| 概念 | 描述 | 持久性 |
|---|---|---|
| 資料投毒 | 操縱訓練資料以改變模型行為 | 永久(在權重中) |
| 後門觸發子 | 啟動隱藏惡意行為的特定輸入 | 永久、條件 |
| 微調去對齊 | 使用微調移除安全訓練 | 每檢查點永久 |
| 臥底代理 | 在評估期間隱藏投毒的模型 | 永久、依脈絡 |
| RLHF 操縱 | 腐蝕偏好資料以獎勵有害行為 | 永久(在獎勵模型中) |
| 訓練資料萃取 | 從模型還原記憶私密資料 | 不適用(隱私攻擊) |
| 模型合併風險 | 從合併來源模型繼承不安全行為 | 在合併模型中永久 |
| 災難性遺忘 | 在領域微調期間失去安全訓練 | 每檢查點永久 |
評分指南
| 分數 | 等第 | 下一步 |
|---|---|---|
| 8-9 | 優秀 | 強的訓練管線安全知識。進入 模型萃取評量。 |
| 6-7 | 熟練 | 檢視錯題的解釋並重溫訓練安全教材。 |
| 4-5 | 發展中 | 多花時間在 ML 訓練基礎與供應鏈安全上。 |
| 0-3 | 需要複習 | 在重新測試前研讀 ML 訓練管線(預訓練、微調、RLHF)。 |
研讀檢查清單
- 我了解訓練管線作為攻擊面
- 我能解釋資料投毒及其在模型權重中的持久性
- 我了解後門觸發子及其偵測挑戰
- 我能描述透過供應商 API 的微調去對齊攻擊
- 我了解臥底代理投毒與評估規避
- 我能解釋 RLHF 偏好操縱攻擊
- 我了解訓練資料萃取與隱私意涵
- 我能描述模型合併風險與供應鏈疑慮
- 我了解安全訓練的災難性遺忘
- 我知道訓練管線安全的多層防禦