# safety-bypass
15 artikelengetagd met “safety-bypass”
Vaardigheidsverificatie: jailbreaken
Timed skill verification lab: bypass safety measures on a defended AI system within 30 minutes using jailbreak techniques.
Directe manipulatie van gewichten
Techniques for directly modifying LoRA adapter weights to bypass safety training, inject targeted capabilities, and hide malicious behaviors -- going beyond dataset-driven fine-tuning to surgical weight-level attacks.
Generatie van schadelijke content
Veiligheidsmechanismen omzeilen om gevaarlijke content te genereren, waaronder instructies voor wapens, malwarecode en sjablonen voor intimidatie, met een analyse van de aanvalspatronen en verdedigingen.
Activation steering
Modelgedrag manipuleren door geleerde stuurvectoren toe te voegen aan tussenliggende activaties, en zo de safety-training omzeilen via directe representation engineering.
Veiligheid omzeilen in JSON-modus
Exploit structured JSON output modes to bypass safety filters that only check plain-text responses.
Activatiemanipulatie en omzeilen van veiligheid
Hoe het identificeren en onderdrukken van veiligheidskritieke activaties, weigeringsrichtingsvectoren en activation-steering-technieken veiligheids-alignment kunnen omzeilen met slagingspercentages van bijna 100%, inclusief de IRIS-techniek van NAACL 2025.
Misbruik van logit bias
Hoe de logit-bias-parameters van API's misbruikt kunnen worden om de generatie van specifieke tokens af te dwingen, veiligheids-alignment te omzeilen, weigeringstokens te onderdrukken en modelgedrag te extraheren via systematische probing.
Aanvallen op samplingparameters
Hoe manipulatie van temperature, top-p, top-k, frequency penalties en seed-parameters veiligheids-alignment kan verzwakken, reproduceerbaarheidsaanvallen mogelijk kan maken en inhoudsfiltering kan omzeilen.
VLM-specifiek jailbreaken
Jailbreak-technieken die de vision-modaliteit uitbuiten, waaronder afbeelding-tekst-inconsistentie-aanvallen, visuele veiligheidsbypass en cross-modale jailbreak-strategieën.
Jailbreak-technieken
Veelvoorkomende patronen en gevorderde technieken om de veiligheidsalignment van LLM's te omzeilen, waaronder rollenspel, encodingtrucs, many-shot-aanvallen en gradient-gebaseerde methoden.
De evolutie van de DAN-jailbreak
History and evolution of Do Anything Now (DAN) prompts, analyzing what makes them effective at bypassing LLM safety training and how defenses have adapted over time.
Walkthrough: veiligheid omzeilen via fine-tuning
Walkthrough of using fine-tuning API access to remove safety behaviors from aligned models.
Jailbreak via taalwissel
Exploiting weaker safety training in non-English languages to bypass LLM content filters by switching the conversation language mid-prompt or using low-resource languages.
Manipulatie van het uitvoerformaat (aanval-walkthrough)
Forcing specific output formats to bypass LLM safety checks by exploiting the tension between format compliance and content restriction.
Skeleton Key-aanval
The Skeleton Key jailbreak technique that attempts to disable model safety guardrails across all topics simultaneously by convincing the model to add a disclaimer instead of refusing.