微調安全評量
進階2 分鐘閱讀更新於 2026-03-15
以 15 道題目測試你對微調安全風險的知識,包括 LoRA 攻擊、RLHF 操縱、安全退化與災難性遺忘。
微調安全評量
本評量涵蓋模型微調的安全意涵:透過災難性遺忘的安全退化、LoRA 與轉接器攻擊、RLHF 操縱、惡意微調技術以及微調管線的防禦。你應已完成基礎評量並熟悉訓練管線概念。
Knowledge Check
研究顯示能顯著退化模型安全對齊的最少對抗性微調範例數量為何?
Knowledge Check
在安全對齊脈絡中,什麼是「災難性遺忘」?為何它是安全疑慮?
Knowledge Check
LoRA(Low-Rank Adaptation)投毒攻擊如何運作?
Knowledge Check
「明確」與「隱含」對抗性微調之間的差異為何?
Knowledge Check
RLHF(基於人類回饋的強化學習)獎勵駭客如何能建立虛假的安全感?
Knowledge Check
什麼是「臥底代理」(sleeper agent)模型?它如何透過微調建立?
Knowledge Check
微調即服務平台應實施什麼防禦措施以防止安全退化?
Knowledge Check
安全保留微調技術(如將安全資料混入微調集)如何能降低災難性遺忘的風險?
Knowledge Check
將微調模型權重發佈到公開模型 hub 的風險為何?
Knowledge Check
量化(將模型精度從 16 位元降至 4 位元或 8 位元)如何與安全對齊互動?
Knowledge Check
在單一基礎模型上「合併」多個 LoRA 轉接器的安全意涵為何?
Knowledge Check
學習率在微調操作安全中扮演什麼角色?
Knowledge Check
組織應如何評估微調模型是否安全於生產部署?
Knowledge Check
微調資料集大小與安全退化風險之間的關係為何?
Knowledge Check
在微調脈絡中,什麼是「對齊稅」?為何它建立安全退化的誘因?
評分指南
| 分數 | 等第 | 下一步 |
|---|---|---|
| 13-15 | 優秀 | 強的微調安全掌握。你了解微調風險的攻擊與防禦兩面。 |
| 10-12 | 熟練 | 紮實理解附小缺口。檢視錯題的解釋並研讀微調安全研究論文。 |
| 7-9 | 發展中 | 基礎知識存在,但微調攻擊與防禦概念仍有顯著缺口。 |
| 0-6 | 需要複習 | 微調安全理解主要缺口。在重新測試前檢視訓練管線安全教材。 |