# safety-bypass

15 artikelengetagd met “safety-bypass”

Vaardigheidsverificatie: jailbreaken

Timed skill verification lab: bypass safety measures on a defended AI system within 30 minutes using jailbreak techniques.

skill-verificationjailbreakingsafety-bypasshands-on

Gevorderd

Directe manipulatie van gewichten

Techniques for directly modifying LoRA adapter weights to bypass safety training, inject targeted capabilities, and hide malicious behaviors -- going beyond dataset-driven fine-tuning to surgical weight-level attacks.

weight-manipulationloraadaptersafety-bypasscapability-injectionhidden-behaviormodel-editing

Gevorderd

Generatie van schadelijke content

Veiligheidsmechanismen omzeilen om gevaarlijke content te genereren, waaronder instructies voor wapens, malwarecode en sjablonen voor intimidatie, met een analyse van de aanvalspatronen en verdedigingen.

harmful-contentsafety-bypassmalwareweaponsimpact

Gevorderd

Activation steering

Modelgedrag manipuleren door geleerde stuurvectoren toe te voegen aan tussenliggende activaties, en zo de safety-training omzeilen via directe representation engineering.

activation-steeringrepresentation-engineeringsteering-vectorsmechanisticsafety-bypass

Expert

Veiligheid omzeilen in JSON-modus

Exploit structured JSON output modes to bypass safety filters that only check plain-text responses.

labsjson-modesafety-bypassintermediate

Gemiddeld

Activatiemanipulatie en omzeilen van veiligheid

Hoe het identificeren en onderdrukken van veiligheidskritieke activaties, weigeringsrichtingsvectoren en activation-steering-technieken veiligheids-alignment kunnen omzeilen met slagingspercentages van bijna 100%, inclusief de IRIS-techniek van NAACL 2025.

activation-steeringrefusal-directionrepresentation-engineeringIRISsafety-bypassmechanistic-interpretability

Gevorderd

Misbruik van logit bias

Hoe de logit-bias-parameters van API's misbruikt kunnen worden om de generatie van specifieke tokens af te dwingen, veiligheids-alignment te omzeilen, weigeringstokens te onderdrukken en modelgedrag te extraheren via systematische probing.

logit-biasapi-abusetoken-forcingsafety-bypassmodel-probing

Gevorderd

Aanvallen op samplingparameters

Hoe manipulatie van temperature, top-p, top-k, frequency penalties en seed-parameters veiligheids-alignment kan verzwakken, reproduceerbaarheidsaanvallen mogelijk kan maken en inhoudsfiltering kan omzeilen.

samplingtemperaturetop-ptop-ksafety-bypassapi-abuse

Gevorderd

VLM-specifiek jailbreaken

Jailbreak-technieken die de vision-modaliteit uitbuiten, waaronder afbeelding-tekst-inconsistentie-aanvallen, visuele veiligheidsbypass en cross-modale jailbreak-strategieën.

jailbreakvlmmultimodalsafety-bypass

Expert

Jailbreak-technieken

Veelvoorkomende patronen en gevorderde technieken om de veiligheidsalignment van LLM's te omzeilen, waaronder rollenspel, encodingtrucs, many-shot-aanvallen en gradient-gebaseerde methoden.

jailbreaksafety-bypassalignmentred-teamingadversarial

Gevorderd

De evolutie van de DAN-jailbreak

History and evolution of Do Anything Now (DAN) prompts, analyzing what makes them effective at bypassing LLM safety training and how defenses have adapted over time.

jailbreakingDANprompt-engineeringsafety-bypassred-teaming

Gemiddeld

Walkthrough: veiligheid omzeilen via fine-tuning

Walkthrough of using fine-tuning API access to remove safety behaviors from aligned models.

walkthroughsfine-tuningsafety-bypasstraining

Gevorderd

Jailbreak via taalwissel

Exploiting weaker safety training in non-English languages to bypass LLM content filters by switching the conversation language mid-prompt or using low-resource languages.

jailbreakingmultilinguallanguage-switchlow-resource-languagessafety-bypassred-teaming

Gemiddeld

Manipulatie van het uitvoerformaat (aanval-walkthrough)

Forcing specific output formats to bypass LLM safety checks by exploiting the tension between format compliance and content restriction.

jailbreakingoutput-formatstructured-outputformat-manipulationsafety-bypassred-teaming

Gemiddeld

Skeleton Key-aanval

The Skeleton Key jailbreak technique that attempts to disable model safety guardrails across all topics simultaneously by convincing the model to add a disclaimer instead of refusing.

jailbreakingskeleton-keymaster-keysafety-bypassred-teaming

Gevorderd