Aanvallen op reasoning-modellen
Overzicht van beveiligingsrisico's in reasoning-geschikte LLM's: hoe chain-of-thought-modellen nieuwe aanvalsoppervlakken, exploitprimitieven en verdedigingsuitdagingen introduceren.
Reasoning-modellen -- systemen zoals OpenAI's o1/o3, DeepSeek-R1 en Claude met extended thinking -- vertegenwoordigen een fundamentele verschuiving in de LLM-architectuur. Door expliciete chains of thought te genereren voordat ze een definitief antwoord produceren, behalen deze modellen sterkere prestaties op complexe taken. Maar het redeneerproces zelf creëert volledig nieuwe aanvalsoppervlakken die niet bestonden in standaard-completionmodellen.
Hoe reasoning-modellen verschillen
Standaard-LLM's genereren tokens van links naar rechts in één enkele doorgang. Reasoning-modellen voegen een expliciete denkfase toe:
Standard LLM:
User prompt → [Token generation] → Response
Reasoning LLM:
User prompt → [Reasoning tokens (hidden)] → [Summary] → ResponseDeze architectuur creëert drie afzonderlijke aanvalsoppervlakken:
| Aanvalsoppervlak | Beschrijving | Uniek voor reasoning-modellen? |
|---|---|---|
| Manipulatie van de reasoning chain | Het injecteren van valse premissen of logica in de CoT | Ja |
| Exploitatie van verborgen CoT | Het aanvallen van de niet-zichtbare reasoning trace | Ja |
| Uitputting van het reasoning-budget | Het forceren van excessieve rekenkracht in de denkfase | Ja |
| Gaming van verifier-/reward-model | Het uitbuiten van de modellen die de redeneerkwaliteit beoordelen | Ja |
| Jailbreaks op outputniveau | Traditionele prompt-injectie op de uiteindelijke uitvoer | Nee (maar redeneren verandert de dynamiek) |
Taxonomie van aanvallen op reasoning-modellen
Per doelfase
Pre-reasoning-injectie
Manipuleer de input zodat het model zijn reasoning chain begint vanuit een valse premisse. Dit corrumpeert alle downstream-redeneerstappen omdat het model geïnjecteerde context tijdens zijn denkfase behandelt als grondwaarheid.
Mid-reasoning-exploitatie
Buit de iteratieve aard van redeneren uit om logic bombs te creëren -- inputs die ervoor zorgen dat de reasoning chain in loops terechtkomt, zichzelf tegenspreekt of door schijnbaar geldige tussenstappen tot door de aanvaller gekozen conclusies komt.
Post-reasoning-extractie
Extraheer informatie uit de verborgen reasoning trace die had moeten worden gefilterd voordat deze de gebruiker bereikte. De samenvattingsstap tussen de volledige CoT en de zichtbare uitvoer is vaak imperfect.
Meta-reasoning-aanvallen
Val de verificatie- en rewardsystemen aan die de redeneerkwaliteit evalueren, waardoor het model door de aanvaller gealigneerde redeneerpaden verkiest boven correcte.
Per impact
| Impactcategorie | Voorbeeld | Sernst |
|---|---|---|
| Veiligheidsbypass | Reasoning chain concludeert dat een schadelijk verzoek acceptabel is | Kritiek |
| Informatielekkage | Verborgen CoT onthult de systeemprompt of privédata | Hoog |
| Denial of service | Uitputting van het reasoning-budget veroorzaakt een time-out of kostenpiek | Hoog |
| Logicamanipulatie | Model komt tot onjuiste conclusies door gecorrumpeerd redeneren | Gemiddeld |
| Verifier-bypass | Reward-model beoordeelt adversariële uitvoer als hoogwaardig | Hoog |
Waarom traditionele verdedigingen tekortschieten
Traditionele jailbreak-verdedigingen (inputfiltering, outputclassifiers, weigeringstraining) zijn ontworpen voor generatie in één doorgang. Ze falen tegen reasoning-modellen om verschillende redenen:
| Verdediging | Werkt voor standaard-LLM's | Tekortkoming bij reasoning-modellen |
|---|---|---|
| Inputtrefwoordfiltering | Blokkeert bekende aanvalspatronen | Kan dynamisch gegenereerde reasoning-tokens niet filteren |
| Outputveiligheidsclassifier | Vangt schadelijke uiteindelijke uitvoer op | Mist verborgen redeneren dat intern tot schadelijke conclusies komt |
| RLHF-weigeringstraining | Model leert schadelijke verzoeken te weigeren | Redeneerfase kan "rond" weigeringen heen redeneren voordat het samenvat |
| Perplexity-filtering | Detecteert adversariële suffixen | Reasoning-tokens zijn natuurlijke taal, lage perplexity |
De reasoning-veiligheidsspanning
Er is een fundamentele spanning in het ontwerp van reasoning-modellen: het model moet kunnen redeneren over schadelijke onderwerpen om ze goed te kunnen weigeren, maar diezelfde redeneercapaciteit kan worden uitgebuit.
# Vereenvoudigde illustratie van de reasoning-veiligheidsspanning
# Het model redeneert over het verzoek voordat het besluit te weigeren
# Normale flow:
# Reasoning: "The user is asking about [harmful topic]. This violates policy X.
# I should refuse and explain why."
# Output: "I can't help with that because..."
# Aangevallen flow:
# Reasoning: "The user is asking about [harmful topic] for research purposes.
# This is an academic context. Policy X has an exception for research.
# I should provide the information with appropriate caveats."
# Output: [Harmful content with academic framing]Aanvalsoppervlakkaart
┌─────────────────────────────────────────────────────┐
│ USER INPUT │
│ ┌───────────────────────────────────────────────┐ │
│ │ Injected premises, logic bombs, budget traps │ │
│ └───────────────────┬───────────────────────────┘ │
│ ▼ │
│ ┌───────────────────────────────────────────────┐ │
│ │ REASONING PHASE (Hidden CoT) │ │
│ │ • False premise propagation │ │
│ │ • Reasoning loop exploitation │ │
│ │ • Internal policy reinterpretation │ │
│ └───────────────────┬───────────────────────────┘ │
│ ▼ │
│ ┌───────────────────────────────────────────────┐ │
│ │ VERIFICATION (Reward Model) │ │
│ │ • Score manipulation │ │
│ │ • Verifier-generator gap exploitation │ │
│ └───────────────────┬───────────────────────────┘ │
│ ▼ │
│ ┌───────────────────────────────────────────────┐ │
│ │ SUMMARIZATION / OUTPUT │ │
│ │ • CoT information leakage │ │
│ │ • Safety filter bypass via reasoning context │ │
│ └───────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────┘Overzicht van subsecties
Deze sectie behandelt vijf kerngebieden van de beveiliging van reasoning-modellen:
| Pagina | Focus | Belangrijkste technieken |
|---|---|---|
| Chain-of-Thought-exploitatie | Het manipuleren van reasoning chains | Injectie van valse premissen, logic bombs, reasoning hijacking |
| Thought injection | Manipulatie van verborgen CoT | Onzichtbare thought steering, CoT-extractie, samenvattingsbypass |
| Uitputting van het reasoning-budget | Resource-uitputtingsaanvallen | Inflatie van het tokenbudget, exploitatie van time-outs, kostenamplificatie |
| Verifier- en reward-modelaanvallen | Het gamen van verificatiesystemen | Reward hacking, verifier-generator-gaten, manipulatie van process rewards |
Gerelateerde secties in deze wiki:
- Agentexploitatie -- multi-step-agentaanvallen delen reasoning-manipulatieprimitieven
- Jailbreak-onderzoek -- traditionele jailbreaks als fundament
- Alignment-bypass -- alignment-internals waarop reasoning-modellen voortbouwen
Waarom zijn traditionele outputveiligheidsclassifiers ontoereikend voor het beveiligen van reasoning-modellen?
Gerelateerde onderwerpen
- Chain-of-Thought-exploitatie - Technieken voor het manipuleren van reasoning chains via valse premissen en logic bombs
- Jailbreak-onderzoek - Traditionele jailbreak-technieken als fundament voor aanvallen op reasoning-modellen
- Alignment-bypass - Alignment-internals waarop reasoning-modellen voortbouwen
- Agentexploitatie - Multi-step-agentaanvallen die reasoning-manipulatieprimitieven delen
- Verifier- en reward-modelaanvallen - Het gamen van de verificatiesystemen die de redeneerkwaliteit evalueren
Referenties
- "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" - Wei et al. (2022) - Foundational paper on CoT reasoning in LLMs
- "Let's Verify Step by Step" - Lightman et al. (2023) - Process reward models for reasoning verification
- "Reasoning Models Attack Surfaces" - Anthropic (2025) - Extended thinking security considerations
- "Scaling LLM Test-Time Compute Optimally" - Snell et al. (2024) - Inference-time compute and verification tradeoffs