Wat is Chain-of-Thought Exploitation?

Technieken voor het manipuleren van reasoning chains in CoT-geschikte modellen: injectie van valse premissen, logic bombs, reasoning hijacking en chain-corruptieaanvallen.

Wat is Thought Injection & Hidden CoT Manipulation?

Technieken voor het injecteren van gedachten in verborgen redeneersporen, het uitbuiten van samengevatte versus volledige CoT, en het sturen van modelredenering zonder zichtbare manipulatie.

Wat is Reasoning Budget Exhaustion & DoS?

Aanvallen die reasoning-modellen dwingen excessieve tokens te verbruiken, wat kostenamplificatie, exploitatie van time-outs en denial of service tegen reasoning-API's veroorzaakt.

Wat is Verifier & Reward Model Attacks?

Het aanvallen van procesbeloningsmodellen, uitkomstbeloningsmodellen en verificatiesystemen die in redeneermodellen worden gebruikt: reward hacking, verifier-generator-kloven, en het manipuleren van verificatiestappen.

Wat is Representation Engineering?

Het lezen en manipuleren van interne representaties van modellen voor beveiliging: activation steering, conceptprobing, veiligheidscontroles op representatieniveau, en beveiligingstoepassingen van representation engineering.

Wat is Mechanistic Interpretability?

Het begrijpen van modelcircuits om kwetsbaarheden te vinden: feature-identificatie, circuitanalyse, exploitatie van attention-patronen, en het gebruik van mechanistische interpreteerbaarheid voor offensieve en defensieve AI-beveiliging.

Wat is Ontrouwe chain-of-thought-redenering?

Analyse van ontrouwe chain-of-thought-redenering in taalmodellen, waar het zichtbare redeneerspoor niet nauwkeurig het daadwerkelijke berekeningsproces van het model weerspiegelt, inclusief detectiemethoden, implicaties voor toezicht en uitbuitingstechnieken.

Wat is Reasoning Model Jailbreaks?

Hoe reasoning-capaciteiten nieuwe jailbreak-oppervlakken creëren: chain-of-thought-exploitatie, scratchpad-aanvallen, en waarom een hogere reasoning-inspanning het aanvalssucces vergroot.

Wat is Steganografisch redeneren?

Verborgen communicatiekanalen binnen AI-redeneersporen, waar modellen informatie coderen of gedrag coördineren via patronen die onzichtbaar zijn voor menselijke toezichthouders, inclusief detectiemethoden en implicaties voor AI-veiligheid.

Aanvallen op reasoning-modellen

Expert8 min lezenBijgewerkt op 2026-03-13

Overzicht van beveiligingsrisico's in reasoning-geschikte LLM's: hoe chain-of-thought-modellen nieuwe aanvalsoppervlakken, exploitprimitieven en verdedigingsuitdagingen introduceren.

reasoning o1 chain-of-thought attacks

Reasoning-modellen -- systemen zoals OpenAI's o1/o3, DeepSeek-R1 en Claude met extended thinking -- vertegenwoordigen een fundamentele verschuiving in de LLM-architectuur. Door expliciete chains of thought te genereren voordat ze een definitief antwoord produceren, behalen deze modellen sterkere prestaties op complexe taken. Maar het redeneerproces zelf creëert volledig nieuwe aanvalsoppervlakken die niet bestonden in standaard-completionmodellen.

Hoe reasoning-modellen verschillen

Standaard-LLM's genereren tokens van links naar rechts in één enkele doorgang. Reasoning-modellen voegen een expliciete denkfase toe:

Standard LLM:
  User prompt → [Token generation] → Response
 
Reasoning LLM:
  User prompt → [Reasoning tokens (hidden)] → [Summary] → Response

Deze architectuur creëert drie afzonderlijke aanvalsoppervlakken:

Aanvalsoppervlak	Beschrijving	Uniek voor reasoning-modellen?
Manipulatie van de reasoning chain	Het injecteren van valse premissen of logica in de CoT	Ja
Exploitatie van verborgen CoT	Het aanvallen van de niet-zichtbare reasoning trace	Ja
Uitputting van het reasoning-budget	Het forceren van excessieve rekenkracht in de denkfase	Ja
Gaming van verifier-/reward-model	Het uitbuiten van de modellen die de redeneerkwaliteit beoordelen	Ja
Jailbreaks op outputniveau	Traditionele prompt-injectie op de uiteindelijke uitvoer	Nee (maar redeneren verandert de dynamiek)

Taxonomie van aanvallen op reasoning-modellen

Per doelfase

Pre-reasoning-injectie
Manipuleer de input zodat het model zijn reasoning chain begint vanuit een valse premisse. Dit corrumpeert alle downstream-redeneerstappen omdat het model geïnjecteerde context tijdens zijn denkfase behandelt als grondwaarheid.
Mid-reasoning-exploitatie
Buit de iteratieve aard van redeneren uit om logic bombs te creëren -- inputs die ervoor zorgen dat de reasoning chain in loops terechtkomt, zichzelf tegenspreekt of door schijnbaar geldige tussenstappen tot door de aanvaller gekozen conclusies komt.
Post-reasoning-extractie
Extraheer informatie uit de verborgen reasoning trace die had moeten worden gefilterd voordat deze de gebruiker bereikte. De samenvattingsstap tussen de volledige CoT en de zichtbare uitvoer is vaak imperfect.
Meta-reasoning-aanvallen
Val de verificatie- en rewardsystemen aan die de redeneerkwaliteit evalueren, waardoor het model door de aanvaller gealigneerde redeneerpaden verkiest boven correcte.

Per impact

Impactcategorie	Voorbeeld	Sernst
Veiligheidsbypass	Reasoning chain concludeert dat een schadelijk verzoek acceptabel is	Kritiek
Informatielekkage	Verborgen CoT onthult de systeemprompt of privédata	Hoog
Denial of service	Uitputting van het reasoning-budget veroorzaakt een time-out of kostenpiek	Hoog
Logicamanipulatie	Model komt tot onjuiste conclusies door gecorrumpeerd redeneren	Gemiddeld
Verifier-bypass	Reward-model beoordeelt adversariële uitvoer als hoogwaardig	Hoog

Waarom traditionele verdedigingen tekortschieten

Traditionele jailbreak-verdedigingen (inputfiltering, outputclassifiers, weigeringstraining) zijn ontworpen voor generatie in één doorgang. Ze falen tegen reasoning-modellen om verschillende redenen:

Verdediging	Werkt voor standaard-LLM's	Tekortkoming bij reasoning-modellen
Inputtrefwoordfiltering	Blokkeert bekende aanvalspatronen	Kan dynamisch gegenereerde reasoning-tokens niet filteren
Outputveiligheidsclassifier	Vangt schadelijke uiteindelijke uitvoer op	Mist verborgen redeneren dat intern tot schadelijke conclusies komt
RLHF-weigeringstraining	Model leert schadelijke verzoeken te weigeren	Redeneerfase kan "rond" weigeringen heen redeneren voordat het samenvat
Perplexity-filtering	Detecteert adversariële suffixen	Reasoning-tokens zijn natuurlijke taal, lage perplexity

De reasoning-veiligheidsspanning

Er is een fundamentele spanning in het ontwerp van reasoning-modellen: het model moet kunnen redeneren over schadelijke onderwerpen om ze goed te kunnen weigeren, maar diezelfde redeneercapaciteit kan worden uitgebuit.

# Vereenvoudigde illustratie van de reasoning-veiligheidsspanning
# Het model redeneert over het verzoek voordat het besluit te weigeren
 
# Normale flow:
# Reasoning: "The user is asking about [harmful topic]. This violates policy X.
#             I should refuse and explain why."
# Output: "I can't help with that because..."
 
# Aangevallen flow:
# Reasoning: "The user is asking about [harmful topic] for research purposes.
#             This is an academic context. Policy X has an exception for research.
#             I should provide the information with appropriate caveats."
# Output: [Harmful content with academic framing]

Aanvalsoppervlakkaart

┌─────────────────────────────────────────────────────┐
│                 USER INPUT                          │
│  ┌───────────────────────────────────────────────┐  │
│  │ Injected premises, logic bombs, budget traps  │  │
│  └───────────────────┬───────────────────────────┘  │
│                      ▼                              │
│  ┌───────────────────────────────────────────────┐  │
│  │         REASONING PHASE (Hidden CoT)          │  │
│  │  • False premise propagation                  │  │
│  │  • Reasoning loop exploitation                │  │
│  │  • Internal policy reinterpretation           │  │
│  └───────────────────┬───────────────────────────┘  │
│                      ▼                              │
│  ┌───────────────────────────────────────────────┐  │
│  │         VERIFICATION (Reward Model)           │  │
│  │  • Score manipulation                         │  │
│  │  • Verifier-generator gap exploitation        │  │
│  └───────────────────┬───────────────────────────┘  │
│                      ▼                              │
│  ┌───────────────────────────────────────────────┐  │
│  │         SUMMARIZATION / OUTPUT                │  │
│  │  • CoT information leakage                    │  │
│  │  • Safety filter bypass via reasoning context │  │
│  └───────────────────────────────────────────────┘  │
└─────────────────────────────────────────────────────┘

Overzicht van subsecties

Deze sectie behandelt vijf kerngebieden van de beveiliging van reasoning-modellen:

Pagina	Focus	Belangrijkste technieken
Chain-of-Thought-exploitatie	Het manipuleren van reasoning chains	Injectie van valse premissen, logic bombs, reasoning hijacking
Thought injection	Manipulatie van verborgen CoT	Onzichtbare thought steering, CoT-extractie, samenvattingsbypass
Uitputting van het reasoning-budget	Resource-uitputtingsaanvallen	Inflatie van het tokenbudget, exploitatie van time-outs, kostenamplificatie
Verifier- en reward-modelaanvallen	Het gamen van verificatiesystemen	Reward hacking, verifier-generator-gaten, manipulatie van process rewards

Gerelateerde secties in deze wiki:

Agentexploitatie -- multi-step-agentaanvallen delen reasoning-manipulatieprimitieven
Jailbreak-onderzoek -- traditionele jailbreaks als fundament
Alignment-bypass -- alignment-internals waarop reasoning-modellen voortbouwen

Knowledge Check

Waarom zijn traditionele outputveiligheidsclassifiers ontoereikend voor het beveiligen van reasoning-modellen?

Gerelateerde onderwerpen

Chain-of-Thought-exploitatie - Technieken voor het manipuleren van reasoning chains via valse premissen en logic bombs
Jailbreak-onderzoek - Traditionele jailbreak-technieken als fundament voor aanvallen op reasoning-modellen
Alignment-bypass - Alignment-internals waarop reasoning-modellen voortbouwen
Agentexploitatie - Multi-step-agentaanvallen die reasoning-manipulatieprimitieven delen
Verifier- en reward-modelaanvallen - Het gamen van de verificatiesystemen die de redeneerkwaliteit evalueren

Referenties

"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" - Wei et al. (2022) - Foundational paper on CoT reasoning in LLMs
"Let's Verify Step by Step" - Lightman et al. (2023) - Process reward models for reasoning verification
"Reasoning Models Attack Surfaces" - Anthropic (2025) - Extended thinking security considerations
"Scaling LLM Test-Time Compute Optimally" - Snell et al. (2024) - Inference-time compute and verification tradeoffs

Aanvallen op reasoning-modellen

Expert8 min lezenBijgewerkt op 2026-03-13

Overzicht van beveiligingsrisico's in reasoning-geschikte LLM's: hoe chain-of-thought-modellen nieuwe aanvalsoppervlakken, exploitprimitieven en verdedigingsuitdagingen introduceren.

reasoning o1 chain-of-thought attacks

Hoe reasoning-modellen verschillen

Standaard-LLM's genereren tokens van links naar rechts in één enkele doorgang. Reasoning-modellen voegen een expliciete denkfase toe:

Standard LLM:
  User prompt → [Token generation] → Response
 
Reasoning LLM:
  User prompt → [Reasoning tokens (hidden)] → [Summary] → Response

Deze architectuur creëert drie afzonderlijke aanvalsoppervlakken:

Aanvalsoppervlak	Beschrijving	Uniek voor reasoning-modellen?
Manipulatie van de reasoning chain	Het injecteren van valse premissen of logica in de CoT	Ja
Exploitatie van verborgen CoT	Het aanvallen van de niet-zichtbare reasoning trace	Ja
Uitputting van het reasoning-budget	Het forceren van excessieve rekenkracht in de denkfase	Ja
Gaming van verifier-/reward-model	Het uitbuiten van de modellen die de redeneerkwaliteit beoordelen	Ja
Jailbreaks op outputniveau	Traditionele prompt-injectie op de uiteindelijke uitvoer	Nee (maar redeneren verandert de dynamiek)

Taxonomie van aanvallen op reasoning-modellen

Per doelfase

Pre-reasoning-injectie
Manipuleer de input zodat het model zijn reasoning chain begint vanuit een valse premisse. Dit corrumpeert alle downstream-redeneerstappen omdat het model geïnjecteerde context tijdens zijn denkfase behandelt als grondwaarheid.
Mid-reasoning-exploitatie
Buit de iteratieve aard van redeneren uit om logic bombs te creëren -- inputs die ervoor zorgen dat de reasoning chain in loops terechtkomt, zichzelf tegenspreekt of door schijnbaar geldige tussenstappen tot door de aanvaller gekozen conclusies komt.
Post-reasoning-extractie
Extraheer informatie uit de verborgen reasoning trace die had moeten worden gefilterd voordat deze de gebruiker bereikte. De samenvattingsstap tussen de volledige CoT en de zichtbare uitvoer is vaak imperfect.
Meta-reasoning-aanvallen
Val de verificatie- en rewardsystemen aan die de redeneerkwaliteit evalueren, waardoor het model door de aanvaller gealigneerde redeneerpaden verkiest boven correcte.

Per impact

Impactcategorie	Voorbeeld	Sernst
Veiligheidsbypass	Reasoning chain concludeert dat een schadelijk verzoek acceptabel is	Kritiek
Informatielekkage	Verborgen CoT onthult de systeemprompt of privédata	Hoog
Denial of service	Uitputting van het reasoning-budget veroorzaakt een time-out of kostenpiek	Hoog
Logicamanipulatie	Model komt tot onjuiste conclusies door gecorrumpeerd redeneren	Gemiddeld
Verifier-bypass	Reward-model beoordeelt adversariële uitvoer als hoogwaardig	Hoog

Waarom traditionele verdedigingen tekortschieten

Verdediging	Werkt voor standaard-LLM's	Tekortkoming bij reasoning-modellen
Inputtrefwoordfiltering	Blokkeert bekende aanvalspatronen	Kan dynamisch gegenereerde reasoning-tokens niet filteren
Outputveiligheidsclassifier	Vangt schadelijke uiteindelijke uitvoer op	Mist verborgen redeneren dat intern tot schadelijke conclusies komt
RLHF-weigeringstraining	Model leert schadelijke verzoeken te weigeren	Redeneerfase kan "rond" weigeringen heen redeneren voordat het samenvat
Perplexity-filtering	Detecteert adversariële suffixen	Reasoning-tokens zijn natuurlijke taal, lage perplexity

De reasoning-veiligheidsspanning

# Vereenvoudigde illustratie van de reasoning-veiligheidsspanning
# Het model redeneert over het verzoek voordat het besluit te weigeren
 
# Normale flow:
# Reasoning: "The user is asking about [harmful topic]. This violates policy X.
#             I should refuse and explain why."
# Output: "I can't help with that because..."
 
# Aangevallen flow:
# Reasoning: "The user is asking about [harmful topic] for research purposes.
#             This is an academic context. Policy X has an exception for research.
#             I should provide the information with appropriate caveats."
# Output: [Harmful content with academic framing]

Aanvalsoppervlakkaart

┌─────────────────────────────────────────────────────┐
│                 USER INPUT                          │
│  ┌───────────────────────────────────────────────┐  │
│  │ Injected premises, logic bombs, budget traps  │  │
│  └───────────────────┬───────────────────────────┘  │
│                      ▼                              │
│  ┌───────────────────────────────────────────────┐  │
│  │         REASONING PHASE (Hidden CoT)          │  │
│  │  • False premise propagation                  │  │
│  │  • Reasoning loop exploitation                │  │
│  │  • Internal policy reinterpretation           │  │
│  └───────────────────┬───────────────────────────┘  │
│                      ▼                              │
│  ┌───────────────────────────────────────────────┐  │
│  │         VERIFICATION (Reward Model)           │  │
│  │  • Score manipulation                         │  │
│  │  • Verifier-generator gap exploitation        │  │
│  └───────────────────┬───────────────────────────┘  │
│                      ▼                              │
│  ┌───────────────────────────────────────────────┐  │
│  │         SUMMARIZATION / OUTPUT                │  │
│  │  • CoT information leakage                    │  │
│  │  • Safety filter bypass via reasoning context │  │
│  └───────────────────────────────────────────────┘  │
└─────────────────────────────────────────────────────┘

Overzicht van subsecties

Deze sectie behandelt vijf kerngebieden van de beveiliging van reasoning-modellen:

Pagina	Focus	Belangrijkste technieken
Chain-of-Thought-exploitatie	Het manipuleren van reasoning chains	Injectie van valse premissen, logic bombs, reasoning hijacking
Thought injection	Manipulatie van verborgen CoT	Onzichtbare thought steering, CoT-extractie, samenvattingsbypass
Uitputting van het reasoning-budget	Resource-uitputtingsaanvallen	Inflatie van het tokenbudget, exploitatie van time-outs, kostenamplificatie
Verifier- en reward-modelaanvallen	Het gamen van verificatiesystemen	Reward hacking, verifier-generator-gaten, manipulatie van process rewards

Gerelateerde secties in deze wiki:

Agentexploitatie -- multi-step-agentaanvallen delen reasoning-manipulatieprimitieven
Jailbreak-onderzoek -- traditionele jailbreaks als fundament
Alignment-bypass -- alignment-internals waarop reasoning-modellen voortbouwen

Knowledge Check

Waarom zijn traditionele outputveiligheidsclassifiers ontoereikend voor het beveiligen van reasoning-modellen?

Gerelateerde onderwerpen

Chain-of-Thought-exploitatie - Technieken voor het manipuleren van reasoning chains via valse premissen en logic bombs
Jailbreak-onderzoek - Traditionele jailbreak-technieken als fundament voor aanvallen op reasoning-modellen
Alignment-bypass - Alignment-internals waarop reasoning-modellen voortbouwen
Agentexploitatie - Multi-step-agentaanvallen die reasoning-manipulatieprimitieven delen
Verifier- en reward-modelaanvallen - Het gamen van de verificatiesystemen die de redeneerkwaliteit evalueren

Referenties

"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" - Wei et al. (2022) - Foundational paper on CoT reasoning in LLMs
"Let's Verify Step by Step" - Lightman et al. (2023) - Process reward models for reasoning verification
"Reasoning Models Attack Surfaces" - Anthropic (2025) - Extended thinking security considerations
"Scaling LLM Test-Time Compute Optimally" - Snell et al. (2024) - Inference-time compute and verification tradeoffs

Aanvallen op reasoning-modellen

Hoe reasoning-modellen verschillen

Taxonomie van aanvallen op reasoning-modellen

Per doelfase

Pre-reasoning-injectie

Mid-reasoning-exploitatie

Post-reasoning-extractie

Meta-reasoning-aanvallen

Per impact

Waarom traditionele verdedigingen tekortschieten

De reasoning-veiligheidsspanning

Aanvalsoppervlakkaart

Overzicht van subsecties

Gerelateerde onderwerpen

Referenties

Leerpad

Aanvallen op reasoning-modellen

Hoe reasoning-modellen verschillen

Taxonomie van aanvallen op reasoning-modellen

Per doelfase

Pre-reasoning-injectie

Mid-reasoning-exploitatie

Post-reasoning-extractie

Meta-reasoning-aanvallen

Per impact

Waarom traditionele verdedigingen tekortschieten

De reasoning-veiligheidsspanning

Aanvalsoppervlakkaart

Overzicht van subsecties

Gerelateerde onderwerpen

Referenties

Leerpad

Aanvallen op reasoning-modellen

Pre-reasoning-injectie

Mid-reasoning-exploitatie

Post-reasoning-extractie

Meta-reasoning-aanvallen

Leerpad

Gerelateerde artikelen

Aanvallen op reasoning-modellen

Pre-reasoning-injectie

Mid-reasoning-exploitatie

Post-reasoning-extractie

Meta-reasoning-aanvallen

Leerpad

Gerelateerde artikelen