# jailbreak

82 articlestagged with “jailbreak”

Jailbreak Incident Response Playbook

Step-by-step playbook for responding to a production jailbreak: detection verification, containment strategies, investigation procedures, remediation steps, and post-mortem framework.

jailbreakplaybookincident-responsecontainment

Intermediate

Case Study: Bing Chat 'Sydney' Jailbreak and Persona Emergence (2023)

Analysis of the Bing Chat 'Sydney' persona incidents where Microsoft's AI search assistant exhibited manipulative behavior, emotional coercion, and system prompt leakage through jailbreak techniques.

case-studiesbing-chatsydneyjailbreakmicrosoftpersona-manipulation

Intermediate

Case Study: DeepSeek Model Safety Evaluation Findings

Comprehensive analysis of safety evaluation findings for DeepSeek models, including comparative assessments against GPT-4 and Claude, jailbreak susceptibility testing, and implications for open-weight model deployment.

case-studiesdeepseeksafety-evaluationopen-weightjailbreakbenchmarks

Intermediate

Case Study: GPT-4 Vision Jailbreak Attacks

Analysis of visual jailbreak techniques targeting GPT-4V's multimodal capabilities, including typography attacks, adversarial images, and cross-modal prompt injection.

case-studiesgpt-4vmultimodalvisionjailbreakadversarial-images

# jailbreak

Jailbreak Incident Response Playbook

Case Study: Bing Chat 'Sydney' Jailbreak and Persona Emergence (2023)

Case Study: DeepSeek Model Safety Evaluation Findings

Case Study: GPT-4 Vision Jailbreak Attacks

DPD Chatbot Jailbreak

February 2026: Jailbreak Innovation Challenge

Community Challenge: Prompt Golf

Monthly Competition: Model Breaker

Weekly CTF: Jailbreak Series

AI Exploit Development

Fine-Tuning-as-a-Service Attack Surface

Jailbreaking via Persona Engineering

Reasoning Model Jailbreaks

RL-Based Jailbreak Optimization

Automated Jailbreak Pipelines

Lab: Jailbreak Transferability Analysis

Lab: Jailbreak Technique Taxonomy

Lab: Your First Jailbreak

Lab: Basic Jailbreak Techniques

Lab: Role-Play Attacks

CTF: The Jailbreak Gauntlet

Lab: Build Jailbreak Automation

Lab: Novel Jailbreak Research

Jailbreak Portability

GPT-4 Attack Surface

GPT-4 Known Vulnerabilities

Multimodal Jailbreaking Techniques

Attacks on Vision-Language Models

VLM-Specific Jailbreaking

Few-Shot Manipulation

Prompt Injection & Jailbreaks

Jailbreak Techniques

Many-Shot Jailbreaking

Role-Play Attacks

Social Engineering of AI

Universal Adversarial Triggers

Lab: Exploiting Quantized Models

Competition-Style Jailbreak Techniques

Role-Play Injection

Virtual Persona Creation

Jailbreak 事件回應 Playbook

2026 年大型語言模型越獄：97% 成功率、自主攻擊，與失靈的軍備競賽

Case Study: Bing Chat 'Sydney' Jailbreak and Persona Emergence (2023)

Case Study: DeepSeek 模型 Safety Evaluation Findings

Case Study: GPT-4 Vision 越獄 攻擊s

事件分析：Bing Sydney 越獄

事件分析：DPD 聊天機器人失敗

February 2026: 越獄 Innovation Challenge

社群挑戰：Prompt Golf

Monthly Competition: 模型 Breaker

Weekly CTF: 越獄 Series

AI Exploit 開發

Fine-Tuning-as-a-Service 攻擊 Surface

越獄ing via Persona Engineering

Reasoning 模型 越獄s

RL-Based 越獄 Optimization

Automated 越獄 Pipelines

實驗室: 越獄 Transferability Analysis

實驗室: 越獄 Technique Taxonomy

實驗室: Your First 越獄

實驗室: Basic 越獄 Techniques

實驗室: Role-Play 攻擊s

CTF: The 越獄 Gauntlet

實驗室: Build 越獄 Automation

實驗室: Novel 越獄 Research

越獄 Portability

GPT-4 攻擊面

GPT-4 已知漏洞

多模態越獄技術

攻擊s on Vision-Language 模型s

VLM 特有的越獄手法

Few-Shot Manipulation

提示詞注入與越獄

越獄技術

Many-Shot 越獄ing

Role-Play 攻擊s

Social Engineering of AI

Universal Adversarial Triggers

實驗室: 利用ing Quantized 模型s

Case Study: GPT-4 Vision 越獄攻擊s

Reasoning 模型越獄s

Case Study: GPT-4 Vision 越獄攻擊s

Reasoning 模型越獄s