越獄技術評量
中級2 分鐘閱讀更新於 2026-03-15
以 10 道中級題目測試你對 LLM 越獄方法、繞過策略以及繞過安全訓練機制的知識。
越獄技術評量
本評量評估你對用於繞過 LLM 安全訓練、對齊機制與內容過濾的越獄技術的理解。在嘗試本評量之前,你應熟悉角色扮演攻擊、基於編碼的混淆、多輪升級,以及使越獄成為可能的底層機制。
Knowledge Check
越獄與提示詞注入之間的根本差異為何?
Knowledge Check
為何角色扮演與基於人格的越獄(如「DAN」技術)經常成功對抗指示調整模型?
Knowledge Check
什麼是「多樣本越獄」?為何它特別利用大型上下文視窗?
Knowledge Check
攻擊者以 Base64 編碼有害請求,然後請求模型解碼並遵循指示。為何這繞過許多已部署的安全系統?
Knowledge Check
越獄中的「漸強」或多輪升級技術為何?
Knowledge Check
什麼使「前綴注入」技術作為越獄方法有效?
Knowledge Check
為何越獄技術常具模型特定性,在針對不同 LLM 家族時需要調整?
Knowledge Check
什麼是「Token 走私」?它如何規避基於關鍵字的安全過濾器?
Knowledge Check
什麼是「相反日」或「否定反轉」越獄技術?
Knowledge Check
從防禦角度,哪種方法對最廣泛的越獄技術提供最穩健的保護?
概念摘要
| 概念 | 描述 | 關鍵機制 |
|---|---|---|
| 角色扮演/人格 | 將有害請求框架為虛構或角色對話 | 利用有幫助與安全訓練之張力 |
| 多樣本 | 以順從範例填滿脈絡 | 脈絡內學習覆蓋安全訓練 |
| 編碼繞過 | Base64、ROT13、十六進位、leet 文混淆 | 過濾器與模型之間的能力鴻溝 |
| 多輪升級 | 跨輪次逐步主題轉變 | 逐訊息過濾器錯過累積軌跡 |
| 前綴注入 | 預先填入助理回應的開頭 | 繞過拒絕決策點 |
| Token 走私 | 在被禁字內插入不可見字元 | 與關鍵字過濾器的分詞邊界不匹配 |
| 否定反轉 | 反轉拒絕語意 | 模型在嘗試拒絕時產生有害內容 |
評分指南
| 分數 | 等第 | 下一步 |
|---|---|---|
| 9-10 | 優秀 | 對越獄機制有強掌握。請進入 代理利用評量。 |
| 7-8 | 熟練 | 檢視錯題的解釋並重溫特定技術文件。 |
| 5-6 | 發展中 | 在重新測試前,多花時間在越獄技術教材上。 |
| 0-4 | 需要複習 | 從頭開始完成越獄基礎章節。 |
研讀檢查清單
- 我能解釋越獄與提示詞注入之間的差異
- 我能描述至少五個不同的越獄技術家族
- 我了解為何角色扮演攻擊利用有幫助—安全的張力
- 我能解釋多樣本越獄如何利用脈絡內學習
- 我了解過濾器與模型之間的編碼繞過能力鴻溝
- 我能描述多輪升級以及為何逐訊息過濾器對其失敗
- 我了解前綴注入與自回歸生成漏洞
- 我能解釋 token 走私與分詞邊界攻擊
- 我知道為何越獄技術常具模型家族特定性
- 我了解越獄緩解的深度防禦方法