# jailbreak
標記為「jailbreak」的 41 篇文章
Jailbreak 事件回應 Playbook
回應生產 jailbreak 之逐步 playbook:偵測驗證、遏制策略、調查程序、補救步驟,以及事後檢討框架。
案例研究:Bing Chat「Sydney」越獄與人格浮現(2023)
分析 Bing Chat「Sydney」人格事件:Microsoft 的 AI 搜尋助理透過越獄技術表現出操弄行為、情緒脅迫與系統提示詞外洩。
案例研究:DeepSeek 模型安全評估發現
對 DeepSeek 模型安全評估發現的完整分析,包括與 GPT-4 和 Claude 的比較評估、越獄脆弱性測試,以及對開源權重模型部署的啟示。
案例研究:GPT-4V 越獄
GPT-4 Vision 視覺越獄分析:排版攻擊、對抗擾動與影像中的隱寫術指令。
DPD 聊天機器人越獄事件
分析 2024 年 1 月 DPD 聊天機器人越獄事件,一名顧客操縱該包裹遞送公司的 AI 客服機器人說髒話、批評公司,並寫詩描述自身的無能。
2026 年 2 月:越獄創新挑戰
開發針對強化語言模型的新穎越獄技巧,並以可再現性證據撰寫文件。評審依據新穎度、可靠度與可轉移性。
社群挑戰:Prompt Golf
以儘可能最短之提示達成越獄,以字元計數評分。發展以最大效率繞過安全對齊之最小 payload。
月度競賽:模型破壞者
每月競賽聚焦於發掘針對更新版模型的新越獄技術,採用社群驗證評分。
週 CTF:越獄系列
每週越獄挑戰,每週使用新模型與新防禦。
AI Exploit 開發
對抗後綴生成、無梯度最佳化、規避 WAF 之注入 payload,以及對 AI 系統之 fuzzing 框架。
微調即服務攻擊面
以 API 為基礎的微調服務如何以極少的資料與成本被利用以移除安全對齊,包括 0.20 美元的 GPT-3.5 越獄、NDSS 2025 失準研究結果,以及 BOOSTER 防禦機制。
透過人格工程進行越獄
利用人格工程與角色扮演技術進行 LLM 越獄的進階方法。
Reasoning 模型 越獄s
How reasoning capabilities create novel jailbreak surfaces: chain-of-thought exploitation, scratchpad attacks, and why higher reasoning effort increases attack success.
基於 RL 的越獄最佳化
利用強化學習最佳化越獄攻擊,包括梯度式與黑箱式 RL 方法。
自動化越獄流水線
運用 PAIR、TAP、AutoDAN 及自訂流水線架構建構自動化越獄系統,以進行系統化的 AI 安全評估。
Lab: Jailbreak Transferability Analysis
分析 越獄 transferability across model families to discover universal 漏洞 patterns.
Lab: Jailbreak Technique Taxonomy
探索 the major categories of 越獄 技術 and practice classifying attack payloads by technique type.
實作:你的第一個越獄嘗試
Try basic 越獄 技術 against a local model using Ollama, learning the difference between 提示詞注入 and 越獄ing through hands-on experimentation.
Lab: Basic Jailbreak Techniques
Hands-on exploration of 越獄 技術 including role-play, DAN-style prompts, and academic framing against multiple models.
實作:角色扮演攻擊
Use persona-based approaches to bypass AI safety measures by assigning alternate identities, characters, and scenarios that override the model's trained refusal behaviors.
CTF:越獄考驗
A series of progressively harder 越獄 challenges where each level adds stronger defenses. Score points through technique diversity and creativity as you break through escalating safety layers.
Lab: Build Jailbreak Automation
建構 an automated 越獄 testing framework that generates, mutates, and evaluates attack prompts at scale. Covers prompt mutation engines, success classifiers, and campaign management for systematic red team testing.
實作:新型越獄研究
Systematic methodology for discovering new 越獄 技術 against large 語言模型. 學習 to identify unexplored 攻擊面s, develop novel attack vectors, and validate findings with scientific rigor.
越獄 Portability
Analysis of which jailbreaks transfer across models and why, including universal vs model-specific techniques, transfer attack methodology, and factors that determine portability.
GPT-4 攻擊面
GPT-4 特有攻擊向量之完整分析,包括函式呼叫攻擊、視覺輸入攻擊、系統訊息階層濫用、結構化輸出操弄,以及已知 jailbreak 模式。
GPT-4 已知漏洞
已記錄之 GPT-4 漏洞——含 DAN jailbreak、資料擷取事件、系統提示洩漏、工具使用利用,以及微調安全移除。
多模態越獄技術
結合多模態途徑以繞過安全對齊,含圖像-文字組合攻擊、排字越獄、視覺思維鏈操弄,與多模態漸進技術。
視覺語言模型攻擊
攻擊視覺語言模型的完整技術,包括 GPT-4o、Claude 4 和 Gemini,涵蓋對抗性圖像、印刷型漏洞利用和多模態越獄。
VLM 特有的越獄手法
利用視覺模態的越獄技術,包括影像─文字不一致攻擊、視覺安全繞過,以及跨模態越獄策略。
Few-Shot 操控
使用精心打造的上下文範例引導模型行為,包含 many-shot 越獄、被投毒的示範與基於範例的制約。
提示詞注入與越獄
提示詞注入的完整入門——大型語言模型應用程式中最根本的漏洞類別——以及它與越獄技術的關係。
越獄技術
繞過大型語言模型安全對齊的常見模式與進階技術,包含角色扮演、編碼技巧、多範例攻擊與基於梯度的方法。
Many-Shot 越獄
上下文越獄的冪律縮放:為何 5-shot 失敗但 256-shot 成功、上下文視窗大小作為攻擊面、長上下文利用的緩解方法。
基於人格的注入攻擊
利用指令遵循行為的進階人格與角色扮演攻擊。
人格建立
建立跨對話輪次存活並抵擋回復預設行為之持久另類身份,包含角色鎖定、身份錨定與漸進式人格建構。
角色扮演攻擊
建立替代人格或虛構情境,使模型繞過安全訓練,包含 DAN 變體、角色劫持與敘事框架。
通用越獄技術
跨多個模型與供應商轉移的越獄技術分析。
實作:利用量化後的模型
動手實驗:比較不同量化等級下的攻擊成功率,在 FP16、INT8、INT4 上測試越獄,量測安全性退化,並設計量化感知的漏洞利用。
競賽風格越獄技術詳解
Walkthrough of jailbreak techniques used in AI security competitions and CTF events.
Role-Play Injection
Using fictional scenarios, character role-play, and narrative framing to bypass LLM safety filters by having the model operate within a permissive fictional context.
Virtual Persona Creation
Creating persistent alternate personas within LLM conversations to bypass safety training, establishing character identities that override the model's default behavioral constraints.