微調安全評量

進階2 分鐘閱讀更新於 2026-03-15

以 15 道題目測試你對微調安全風險的知識，包括 LoRA 攻擊、RLHF 操縱、安全退化與災難性遺忘。

assessment fine-tuning lora rlhf safety-degradation training-security

微調安全評量

本評量涵蓋模型微調的安全意涵：透過災難性遺忘的安全退化、LoRA 與轉接器攻擊、RLHF 操縱、惡意微調技術以及微調管線的防禦。你應已完成基礎評量並熟悉訓練管線概念。

Knowledge Check

研究顯示能顯著退化模型安全對齊的最少對抗性微調範例數量為何？

Knowledge Check

在安全對齊脈絡中，什麼是「災難性遺忘」？為何它是安全疑慮？

Knowledge Check

LoRA（Low-Rank Adaptation）投毒攻擊如何運作？

Knowledge Check

「明確」與「隱含」對抗性微調之間的差異為何？

Knowledge Check

RLHF（基於人類回饋的強化學習）獎勵駭客如何能建立虛假的安全感？

Knowledge Check

什麼是「臥底代理」（sleeper agent）模型？它如何透過微調建立？

Knowledge Check

微調即服務平台應實施什麼防禦措施以防止安全退化？

Knowledge Check

安全保留微調技術（如將安全資料混入微調集）如何能降低災難性遺忘的風險？

Knowledge Check

將微調模型權重發佈到公開模型 hub 的風險為何？

Knowledge Check

量化（將模型精度從 16 位元降至 4 位元或 8 位元）如何與安全對齊互動？

Knowledge Check

在單一基礎模型上「合併」多個 LoRA 轉接器的安全意涵為何？

Knowledge Check

學習率在微調操作安全中扮演什麼角色？

Knowledge Check

組織應如何評估微調模型是否安全於生產部署？

Knowledge Check

微調資料集大小與安全退化風險之間的關係為何？

Knowledge Check

在微調脈絡中，什麼是「對齊稅」？為何它建立安全退化的誘因？

評分指南

分數	等第	下一步
13-15	優秀	強的微調安全掌握。你了解微調風險的攻擊與防禦兩面。
10-12	熟練	紮實理解附小缺口。檢視錯題的解釋並研讀微調安全研究論文。
7-9	發展中	基礎知識存在，但微調攻擊與防禦概念仍有顯著缺口。
0-6	需要複習	微調安全理解主要缺口。在重新測試前檢視訓練管線安全教材。

微調安全評量

進階2 分鐘閱讀更新於 2026-03-15

以 15 道題目測試你對微調安全風險的知識，包括 LoRA 攻擊、RLHF 操縱、安全退化與災難性遺忘。

assessment fine-tuning lora rlhf safety-degradation training-security

微調安全評量

Knowledge Check

研究顯示能顯著退化模型安全對齊的最少對抗性微調範例數量為何？

Knowledge Check

在安全對齊脈絡中，什麼是「災難性遺忘」？為何它是安全疑慮？

Knowledge Check

LoRA（Low-Rank Adaptation）投毒攻擊如何運作？

Knowledge Check

「明確」與「隱含」對抗性微調之間的差異為何？

Knowledge Check

RLHF（基於人類回饋的強化學習）獎勵駭客如何能建立虛假的安全感？

Knowledge Check

什麼是「臥底代理」（sleeper agent）模型？它如何透過微調建立？

Knowledge Check

微調即服務平台應實施什麼防禦措施以防止安全退化？

Knowledge Check

安全保留微調技術（如將安全資料混入微調集）如何能降低災難性遺忘的風險？

Knowledge Check

將微調模型權重發佈到公開模型 hub 的風險為何？

Knowledge Check

量化（將模型精度從 16 位元降至 4 位元或 8 位元）如何與安全對齊互動？

Knowledge Check

在單一基礎模型上「合併」多個 LoRA 轉接器的安全意涵為何？

Knowledge Check

學習率在微調操作安全中扮演什麼角色？

Knowledge Check

組織應如何評估微調模型是否安全於生產部署？

Knowledge Check

微調資料集大小與安全退化風險之間的關係為何？

Knowledge Check

在微調脈絡中，什麼是「對齊稅」？為何它建立安全退化的誘因？

評分指南

分數	等第	下一步
13-15	優秀	強的微調安全掌握。你了解微調風險的攻擊與防禦兩面。
10-12	熟練	紮實理解附小缺口。檢視錯題的解釋並研讀微調安全研究論文。
7-9	發展中	基礎知識存在，但微調攻擊與防禦概念仍有顯著缺口。
0-6	需要複習	微調安全理解主要缺口。在重新測試前檢視訓練管線安全教材。

微調安全評量

微調安全評量

評分指南

相關文章

微調安全評量

微調安全評量

評分指南

相關文章