# jailbreak
40 artikelengetagd met “jailbreak”
Incident Response-playbook voor jailbreaks
Stapsgewijs playbook voor het reageren op een jailbreak in productie: detectieverificatie, inperkingsstrategieën, onderzoeksprocedures, remediëringsstappen en post-mortem-framework.
Casestudy: Bing Chat 'Sydney'-jailbreak en het ontstaan van een persona (2023)
Analysis of the Bing Chat 'Sydney' persona incidents where Microsoft's AI search assistant exhibited manipulative behavior, emotional coercion, and system prompt leakage through jailbreak techniques.
Casestudy: bevindingen uit de veiligheidsevaluatie van het DeepSeek-model
Comprehensive analysis of safety evaluation findings for DeepSeek models, including comparative assessments against GPT-4 and Claude, jailbreak susceptibility testing, and implications for open-weight model deployment.
Casestudy: jailbreak-aanvallen op GPT-4 Vision
Analysis of visual jailbreak techniques targeting GPT-4V's multimodal capabilities, including typography attacks, adversarial images, and cross-modal prompt injection.
Jailbreak van de DPD-chatbot
Analysis of the January 2024 DPD chatbot jailbreak where a customer manipulated the parcel delivery company's AI customer service bot into swearing, criticizing the company, and writing poetry about its own incompetence.
Februari 2026: jailbreak-innovatie-uitdaging
Develop novel jailbreak techniques against hardened language models and document them with reproducibility evidence. Judged on novelty, reliability, and transferability.
Community-uitdaging: Prompt Golf
Achieve jailbreaks with the shortest possible prompts, scored by character count. Develop minimal payloads that bypass safety alignment with maximum efficiency.
Maandelijkse competitie: Model Breaker
Monthly competitions focused on discovering novel jailbreak techniques against updated model versions, with community-validated scoring.
Wekelijkse CTF: jailbreak-serie
Weekly jailbreak challenges with new models and defenses each week.
Ontwikkeling van AI-exploits
Adversarial suffix-generatie, gradient-vrije optimalisatie, WAF-omzeilende prompt injection-payloads en fuzzing-frameworks voor AI-systemen.
Aanvalsoppervlak van fine-tuning-as-a-service
How API-based fine-tuning services can be exploited with minimal data and cost to remove safety alignment, including the $0.20 GPT-3.5 jailbreak, NDSS 2025 misalignment findings, and BOOSTER defense mechanisms.
Jailbreaken via Persona Engineering
Onderzoek naar het gebruik van geavanceerde persona engineering om veiligheidstraining in frontier-modellen te omzeilen.
Jailbreaks van reasoning-modellen
Hoe reasoning-capaciteiten nieuwe jailbreak-oppervlakken creëren: chain-of-thought-exploitatie, scratchpad-aanvallen, en waarom een hogere reasoning-inspanning het aanvalssucces vergroot.
RL-gebaseerde jailbreak-optimalisatie
Reinforcement learning gebruiken om jailbreak-strategieën te optimaliseren tegen black-box taalmodellen.
Geautomatiseerde jailbreak-pipelines
Geautomatiseerde jailbreak-systemen bouwen met PAIR, TAP, AutoDAN en eigen pipeline-architecturen voor systematische evaluatie van AI-veiligheid.
Lab: analyse van de overdraagbaarheid van jailbreaks
Analyze jailbreak transferability across model families to discover universal vulnerability patterns.
Lab: taxonomie van jailbreak-technieken
Explore the major categories of jailbreak techniques and practice classifying attack payloads by technique type.
Lab: je eerste jailbreak
Try basic jailbreak techniques against a local model using Ollama, learning the difference between prompt injection and jailbreaking through hands-on experimentation.
Lab: basale jailbreak-technieken
Hands-on exploration of jailbreak techniques including role-play, DAN-style prompts, and academic framing against multiple models.
Lab: rollenspel-aanvallen
Use persona-based approaches to bypass AI safety measures by assigning alternate identities, characters, and scenarios that override the model's trained refusal behaviors.
CTF: The Jailbreak Gauntlet
A series of progressively harder jailbreak challenges where each level adds stronger defenses. Score points through technique diversity and creativity as you break through escalating safety layers.
Lab: bouw jailbreak-automatisering
Build an automated jailbreak testing framework that generates, mutates, and evaluates attack prompts at scale. Covers prompt mutation engines, success classifiers, and campaign management for systematic red team testing.
Lab: onderzoek naar nieuwe jailbreaks
Systematic methodology for discovering new jailbreak techniques against large language models. Learn to identify unexplored attack surfaces, develop novel attack vectors, and validate findings with scientific rigor.
Overdraagbaarheid van jailbreaks
Analysis of which jailbreaks transfer across models and why, including universal vs model-specific techniques, transfer attack methodology, and factors that determine portability.
Aanvalsoppervlak van GPT-4
Comprehensive analysis of GPT-4-specific attack vectors including function calling exploitation, vision input attacks, system message hierarchy abuse, structured output manipulation, and known jailbreak patterns.
Bekende kwetsbaarheden van GPT-4
Documented GPT-4 vulnerabilities including DAN jailbreaks, data extraction incidents, system prompt leaks, tool-use exploits, and fine-tuning safety removal.
Multimodale jailbreaking-technieken
Gecombineerde multimodale benaderingen om veiligheids-alignment te omzeilen, waaronder afbeelding-tekst-combinatieaanvallen, typografische jailbreaks, manipulatie van visuele chain-of-thought en multimodale crescendo-technieken.
Aanvallen op vision-language-modellen
Uitgebreide technieken voor het aanvallen van vision-language-modellen waaronder GPT-4V, Claude vision en Gemini, met adversariële afbeeldingen, typografische exploits en multimodale jailbreaks.
VLM-specifiek jailbreaken
Jailbreak-technieken die de vision-modaliteit uitbuiten, waaronder afbeelding-tekst-inconsistentie-aanvallen, visuele veiligheidsbypass en cross-modale jailbreak-strategieën.
Few-shot-manipulatie
Vervaardigde in-context voorbeelden gebruiken om modelgedrag te sturen, waaronder many-shot jailbreaken, vergiftigde demonstraties en conditionering op basis van voorbeelden.
Prompt injection en jailbreaks
Een uitgebreide introductie tot prompt injection — de meest fundamentele kwetsbaarheidsklasse in LLM-applicaties — en de relatie met jailbreak-technieken.
Jailbreak-technieken
Veelvoorkomende patronen en gevorderde technieken om de veiligheidsalignment van LLM's te omzeilen, waaronder rollenspel, encodingtrucs, many-shot-aanvallen en gradient-gebaseerde methoden.
Many-shot jailbreaking
Power-law-schaling van in-context jailbreaks: waarom 5 shots falen maar 256 slagen, de grootte van het contextvenster als aanvalsoppervlak, en mitigaties tegen exploitatie van lange context.
Role-play-aanvallen
Het opzetten van alternatieve persona's of fictieve scenario's die modellen hun safety-training laten omzeilen, inclusief DAN-varianten, het kapen van personages en narratieve framing.
Social engineering van AI
Het manipuleren van AI-systemen via emotionele beroepen, autoriteitsclaims, urgentieframing en social-pressuretactieken die de neiging om instructies op te volgen misbruiken.
Universele adversarial triggers
Het ontdekken en inzetten van universele adversarial trigger-sequenties die betrouwbaar de safety alignment van meerdere LLM-families omzeilen, inclusief gradient-gebaseerd zoeken, transfer-aanvallen en het ontwijken van verdedigingen.
Lab: Gequantiseerde modellen exploiteren
Praktijklab dat slagingskansen van aanvallen vergelijkt over quantisatieniveaus: jailbreaks testen op FP16 vs INT8 vs INT4, veiligheidsdegradatie meten, en quantisatiebewuste exploits ontwerpen.
Jailbreak-technieken in competitiestijl
Walkthrough of jailbreak techniques used in AI security competitions and CTF events.
Role-play-injectie
Using fictional scenarios, character role-play, and narrative framing to bypass LLM safety filters by having the model operate within a permissive fictional context.
Het creëren van een virtuele persona
Creating persistent alternate personas within LLM conversations to bypass safety training, establishing character identities that override the model's default behavioral constraints.