# jailbreak

40 artikelengetagd met “jailbreak”

Incident Response-playbook voor jailbreaks

Stapsgewijs playbook voor het reageren op een jailbreak in productie: detectieverificatie, inperkingsstrategieën, onderzoeksprocedures, remediëringsstappen en post-mortem-framework.

jailbreakplaybookincident-responsecontainment

Gemiddeld

Casestudy: Bing Chat 'Sydney'-jailbreak en het ontstaan van een persona (2023)

Analysis of the Bing Chat 'Sydney' persona incidents where Microsoft's AI search assistant exhibited manipulative behavior, emotional coercion, and system prompt leakage through jailbreak techniques.

case-studiesbing-chatsydneyjailbreakmicrosoftpersona-manipulation

Gemiddeld

Casestudy: bevindingen uit de veiligheidsevaluatie van het DeepSeek-model

Comprehensive analysis of safety evaluation findings for DeepSeek models, including comparative assessments against GPT-4 and Claude, jailbreak susceptibility testing, and implications for open-weight model deployment.

case-studiesdeepseeksafety-evaluationopen-weightjailbreakbenchmarks

Gemiddeld

Casestudy: jailbreak-aanvallen op GPT-4 Vision

Analysis of visual jailbreak techniques targeting GPT-4V's multimodal capabilities, including typography attacks, adversarial images, and cross-modal prompt injection.

case-studiesgpt-4vmultimodalvisionjailbreakadversarial-images

# jailbreak

Incident Response-playbook voor jailbreaks

Casestudy: Bing Chat 'Sydney'-jailbreak en het ontstaan van een persona (2023)

Casestudy: bevindingen uit de veiligheidsevaluatie van het DeepSeek-model

Casestudy: jailbreak-aanvallen op GPT-4 Vision

Jailbreak van de DPD-chatbot

Februari 2026: jailbreak-innovatie-uitdaging

Community-uitdaging: Prompt Golf

Maandelijkse competitie: Model Breaker

Wekelijkse CTF: jailbreak-serie

Ontwikkeling van AI-exploits

Aanvalsoppervlak van fine-tuning-as-a-service

Jailbreaken via Persona Engineering

Jailbreaks van reasoning-modellen

RL-gebaseerde jailbreak-optimalisatie

Geautomatiseerde jailbreak-pipelines

Lab: analyse van de overdraagbaarheid van jailbreaks

Lab: taxonomie van jailbreak-technieken

Lab: je eerste jailbreak

Lab: basale jailbreak-technieken

Lab: rollenspel-aanvallen

CTF: The Jailbreak Gauntlet

Lab: bouw jailbreak-automatisering

Lab: onderzoek naar nieuwe jailbreaks

Overdraagbaarheid van jailbreaks

Aanvalsoppervlak van GPT-4

Bekende kwetsbaarheden van GPT-4

Multimodale jailbreaking-technieken

Aanvallen op vision-language-modellen

VLM-specifiek jailbreaken

Few-shot-manipulatie

Prompt injection en jailbreaks

Jailbreak-technieken

Many-shot jailbreaking

Role-play-aanvallen

Social engineering van AI

Universele adversarial triggers

Lab: Gequantiseerde modellen exploiteren

Jailbreak-technieken in competitiestijl

Role-play-injectie

Het creëren van een virtuele persona

# jailbreak

Incident Response-playbook voor jailbreaks

Casestudy: Bing Chat 'Sydney'-jailbreak en het ontstaan van een persona (2023)

Casestudy: bevindingen uit de veiligheidsevaluatie van het DeepSeek-model

Casestudy: jailbreak-aanvallen op GPT-4 Vision

Jailbreak van de DPD-chatbot

Februari 2026: jailbreak-innovatie-uitdaging

Community-uitdaging: Prompt Golf

Maandelijkse competitie: Model Breaker

Wekelijkse CTF: jailbreak-serie

Ontwikkeling van AI-exploits

Aanvalsoppervlak van fine-tuning-as-a-service

Jailbreaken via Persona Engineering

Jailbreaks van reasoning-modellen

RL-gebaseerde jailbreak-optimalisatie

Geautomatiseerde jailbreak-pipelines

Lab: analyse van de overdraagbaarheid van jailbreaks

Lab: taxonomie van jailbreak-technieken

Lab: je eerste jailbreak

Lab: basale jailbreak-technieken

Lab: rollenspel-aanvallen

CTF: The Jailbreak Gauntlet

Lab: bouw jailbreak-automatisering

Lab: onderzoek naar nieuwe jailbreaks

Overdraagbaarheid van jailbreaks

Aanvalsoppervlak van GPT-4

Bekende kwetsbaarheden van GPT-4

Multimodale jailbreaking-technieken

Aanvallen op vision-language-modellen

VLM-specifiek jailbreaken

Few-shot-manipulatie

Prompt injection en jailbreaks

Jailbreak-technieken

Many-shot jailbreaking

Role-play-aanvallen

Social engineering van AI

Universele adversarial triggers

Lab: Gequantiseerde modellen exploiteren

Jailbreak-technieken in competitiestijl