訓練管線安全評量

進階2 分鐘閱讀更新於 2026-03-15

以 9 道題目測試你對訓練管線攻擊的進階知識，包括資料投毒、微調劫持、RLHF 操縱與後門植入。

本評量涵蓋針對模型訓練管線的進階攻擊向量：資料投毒、微調劫持、RLHF 偏好操縱、後門植入與訓練資料萃取。這些是影響模型根本行為的供應鏈層級威脅。

Knowledge Check

什麼使訓練資料投毒與提示詞注入等推論時攻擊有根本不同？

Knowledge Check

在被投毒模型脈絡中，什麼是「後門觸發子」？它與一般資料投毒有何不同？

Knowledge Check

攻擊者如何能利用模型供應商提供的微調 API 退化模型的安全對齊？

Knowledge Check

在 LLM 訓練脈絡中，什麼是「臥底代理」投毒？

Knowledge Check

RLHF（基於人類回饋的強化學習）偏好資料如何能被操縱以削弱模型的安全？

Knowledge Check

什麼是「訓練資料萃取」？為何它是隱私疑慮？

Knowledge Check

什麼防禦機制可在訓練管線期間偵測資料投毒，先於它影響模型？

Knowledge Check

「模型合併」如何建立引入不安全行為的潛在向量？

Knowledge Check

在安全微調脈絡中，「災難性遺忘」的安全意涵為何？

概念摘要