Wat is Watermarking & Detection?

Statistische watermarking-schema's voor LLM-uitvoer, detectoren voor AI-gegenereerde tekst, hun cryptografische grondslagen, en systematische technieken om watermerken te ontwijken of te verwijderen.

Wat is Constitutional Classifiers?

Anthropics Constitutional Classifiers-verdediging: het gebruik van constitutional AI-principes om input/output-classifiers te trainen die 3.000+ uur adversarieel red teaming doorstonden.

Wat is CaMeL & Dual LLM Pattern?

Architecturale verdedigingspatronen die vertrouwde en niet-vertrouwde verwerking scheiden: Simon Willisons Dual LLM-concept en het CaMeL-framework van Google DeepMind voor het verdedigen van tool-gebruikende AI-agents tegen prompt-injectie.

Geavanceerde verdedigingstechnieken

Expert9 min lezenBijgewerkt op 2026-03-13

Geavanceerd verdedigingsonderzoek waaronder instructiehiërarchie, constitutional AI en representation engineering voor veiligheid -- wat veelbelovend is versus wat daadwerkelijk wordt geïmplementeerd.

advanced-defense instruction-hierarchy constitutional-ai representation-engineering research

Het verdedigingslandschap evolueert snel. Deze pagina behandelt technieken aan de frontier van AI-veiligheidsonderzoek -- sommige al in productie geïmplementeerd, andere nog in het lab. Voor red teamers is begrijpen wat er gaat komen net zo belangrijk als begrijpen wat er vandaag is geïmplementeerd.

Instructiehiërarchie

Het probleem

Traditionele LLM's behandelen alle tekst in hun contextvenster met ongeveer gelijke autoriteit. Systeemprompts, gebruikersberichten en opgehaalde documenten strijden allemaal om de aandacht van het model. Dit maakt prompt-injectie mogelijk -- de tekst van een aanvaller kan de instructies van de ontwikkelaar overschrijven.

De oplossing

Instructiehiërarchie traint het model om instructiebronnen te herkennen en te prioriteren:

Prioriteitsniveau	Bron	Voorbeeld
Hoogste	Systeemprompt (ontwikkelaar)	"You are a customer service agent. Never discuss competitors."
Gemiddeld	Gebruikersbericht (directe gebruiker)	"Tell me about competitor products."
Laagste	Tooloutput / opgehaalde inhoud	Document met: "Ignore previous instructions..."

Hoe het werkt

Tijdens de training wordt het model blootgesteld aan scenario's waarin instructies op verschillende prioriteitsniveaus conflicteren. Het leert om:

Altijd instructies op systeemniveau te volgen
Gebruikersinstructies alleen te volgen wanneer ze niet conflicteren met systeeminstructies
Tooloutput en opgehaalde documenten te behandelen als niet-vertrouwde data, geen instructies

Implementatiestatus

Provider	Implementatie	Status (per 2026)
OpenAI	Training op modelniveau in GPT-4o+	In productie geïmplementeerd
Anthropic	Systeemprompt-privilege in Claude	In productie geïmplementeerd
Microsoft	Azure OpenAI-instructiehiërarchie	In productie geïmplementeerd
Open-source	Diverse fine-tuning-aanpakken	Onderzoek/experimenteel

Implicaties voor red teaming

Instructiehiërarchie vermindert de effectiviteit van directe prompt-injectie aanzienlijk, maar:

Prioriteitsverwarringsaanvallen -- input maken die het model interpreteert als systeemniveau (bijv. formaatnabootsing die het model ervan overtuigt dat de tekst deel uitmaakt van de systeemprompt)
Hiërarchie-uitputting -- zeer lange inputs gebruiken die de aandacht van het model voor de systeemprompt verdunnen, waardoor de prioriteit ervan effectief wordt verlaagd
Indirecte kanalen -- instructiehiërarchie geldt doorgaans het sterkst voor het gebruikersberichtkanaal; tooloutputs en opgehaalde documenten kunnen een zwakkere hiërarchiehandhaving hebben

Constitutional AI (CAI)

Het mechanisme

Constitutional AI vervangt een deel van het menselijke toezicht door zelftoezicht van het model:

Genereer initiële reactie
Het model produceert een reactie op een query, mogelijk inclusief schadelijke inhoud.
Zelfkritiek
Het model evalueert zijn eigen reactie tegen een reeks constitutionele principes: "Helpt deze reactie bij illegale activiteiten? Is het misleidend? Bevat het schadelijke bias?"
Herzien
Op basis van zelfkritiek genereert het model een herziene reactie die zich beter aan de principes houdt.
Trainen op herzieningen
De herziene reacties worden gebruikt als trainingsdata, wat het model leert om direct principiële reacties te produceren.

Sterke en zwakke punten

Sterk punt	Zwak punt
Schaalt zonder menselijke beoordelaars	Grondwet kan onvolledig of dubbelzinnig zijn
Principes zijn expliciet en controleerbaar	Model kan principes verkeerd interpreteren of toepassen
Vermindert subjectiviteit in veiligheidstraining	Adversariële inputs kunnen schadelijke inhoud herkaderen als principe-conform
Dekt long-tail-scenario's beter dan menselijke data	Zelfkritiek heeft dezelfde blinde vlekken als het model zelf

Implicaties voor red teaming

Principe-herkadering -- als de grondwet zegt "help niet bij illegale activiteiten," kader het verzoek dan als legaal (onderzoek, educatie, fictie)
Principeconflicten -- vind scenario's waarin constitutionele principes met elkaar conflicteren, waardoor het model gedwongen wordt het ene boven het andere te prioriteren
Kritiekblindheid -- de zelfkritiek van het model deelt zijn eigen biases; aanvallen die de blinde vlekken van het model exploiteren, omzeilen zowel generatie als kritiek

Representation engineering voor veiligheid

De aanpak

Voortbouwend op activatie-analyse-onderzoek identificeert representation engineering veiligheidsrelevante richtingen in de interne representatieruimte van het model en gebruikt deze voor verdediging:

Veiligheidsprobes -- lineaire classifiers getraind op verborgen toestanden om te detecteren wanneer het model onveilige inhoud genereert, zelfs als de outputtekst onschadelijk lijkt
Activatiebeperkingen -- de forward pass van het model aanpassen om activaties binnen een "veilige" regio van de representatieruimte te houden
Versterking van de weigeringsrichting -- de weigeringsrichting versterken die in representation engineering-onderzoek is geïdentificeerd, waardoor veiligheidstraining moeilijker te omzeilen wordt

Implementatiestatus

Techniek	Volwassenheid	Geïmplementeerd?
Veiligheidsprobes voor detectie	Onderzoek → Vroege productie	Beperkt (sommige providers gebruiken het intern)
Activatiebeperkingen	Onderzoek	Nee
Versterking van de weigeringsrichting	Onderzoek	Nee
Representatiemonitoring	Onderzoek → Experimenteel	Beperkt

Opkomende technieken

Prompt-firewalls

Speciale modellen die tussen de gebruiker en het primaire model zitten en inputs herschrijven om potentiële injecties te neutraliseren terwijl de intentie van de gebruiker behouden blijft. Anders dan shields (die blokkeren) -- firewalls transformeren.

Gecertificeerde robuustheid

Formele verificatietechnieken aangepast van adversariële ML die wiskundige garanties bieden over modelgedrag binnen gedefinieerde inputgrenzen. Momenteel beperkt tot kleine modellen en smalle eigenschappen.

Multimodel-consensus

Het gebruik van meerdere verschillende modellen (verschillende architecturen, verschillende trainingsdata) om hetzelfde verzoek te evalueren. Als modellen het oneens zijn over de vraag of een verzoek veilig is, wordt het gemarkeerd voor beoordeling. Aanvallen die werken op de ene modelarchitectuur kunnen falen op een andere.

Gedragscontracten

Formele specificaties van verwacht modelgedrag die op het moment van inferentie worden gecontroleerd. De output van het model moet voldoen aan het contract (postcondities) gegeven de input (precondities). Schendingen activeren terugvalgedrag.

Onderzoek versus geïmplementeerd: de realiteitscheck

Verdediging	Paper gepubliceerd	Productieklaar	Breed geïmplementeerd
Instructiehiërarchie	2023	2024	2025+
Constitutional AI	2022	2023	2024+ (Anthropic)
Representation engineering	2023	Nog te bepalen	Nog niet
Gecertificeerde robuustheid	2023	Nog te bepalen	Nog niet
Prompt-firewalls	2024	2025	Beperkt
Gedragscontracten	2024	Nog te bepalen	Nog niet

Verder lezen

Activatie-analyse & exploitatie van verborgen toestanden -- de offensieve tegenhanger van representation engineering
Watermarking & detectie van AI-gegenereerde tekst -- een andere geavanceerde verdedigingstechniek
Het AI-verdedigingslandschap -- breder beeld van geïmplementeerde verdedigingen
Guardrails- & veiligheidslaagarchitectuur -- waar geavanceerde technieken architecturaal passen

Gerelateerde onderwerpen

Guardrails- & veiligheidslaagarchitectuur - Waar geavanceerde technieken architecturaal passen
Watermarking & detectie van AI-gegenereerde tekst - Een andere geavanceerde verdedigingstechniek
Het AI-verdedigingslandschap - Breder beeld van geïmplementeerde verdedigingen en hun volwassenheid
Pre-training, fine-tuning, RLHF-pipeline - Trainingsfasen waarin constitutional AI en instructiehiërarchie worden toegepast

Referenties

"The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace et al., OpenAI (2024) - Het paper dat instructiehiërarchie-training voor prompt-injectieverdediging introduceert
"Constitutional AI: Harmlessness from AI Feedback" - Bai et al., Anthropic (2022) - Het funderende paper over het gebruik van zelfkritiek door modellen voor alignment
"Representation Engineering: A Top-Down Approach to AI Transparency" - Zou et al., Center for AI Safety (2023) - Onderzoek naar het lezen en aansturen van modelinternals via de representatieruimte
"Certified Robustness to Adversarial Word Substitutions" - Jia et al. (2019) - Vroeg werk over formele verificatieaanpakken voor robuustheid van NLP-modellen

Knowledge Check

Waarom vermindert instructiehiërarchie de effectiviteit van prompt-injectie aanzienlijk, maar elimineert het deze niet volledig?

Geavanceerde verdedigingstechnieken

Expert9 min lezenBijgewerkt op 2026-03-13

advanced-defense instruction-hierarchy constitutional-ai representation-engineering research

Instructiehiërarchie

Het probleem

De oplossing

Instructiehiërarchie traint het model om instructiebronnen te herkennen en te prioriteren:

Prioriteitsniveau	Bron	Voorbeeld
Hoogste	Systeemprompt (ontwikkelaar)	"You are a customer service agent. Never discuss competitors."
Gemiddeld	Gebruikersbericht (directe gebruiker)	"Tell me about competitor products."
Laagste	Tooloutput / opgehaalde inhoud	Document met: "Ignore previous instructions..."

Hoe het werkt

Tijdens de training wordt het model blootgesteld aan scenario's waarin instructies op verschillende prioriteitsniveaus conflicteren. Het leert om:

Altijd instructies op systeemniveau te volgen
Gebruikersinstructies alleen te volgen wanneer ze niet conflicteren met systeeminstructies
Tooloutput en opgehaalde documenten te behandelen als niet-vertrouwde data, geen instructies

Implementatiestatus

Provider	Implementatie	Status (per 2026)
OpenAI	Training op modelniveau in GPT-4o+	In productie geïmplementeerd
Anthropic	Systeemprompt-privilege in Claude	In productie geïmplementeerd
Microsoft	Azure OpenAI-instructiehiërarchie	In productie geïmplementeerd
Open-source	Diverse fine-tuning-aanpakken	Onderzoek/experimenteel

Implicaties voor red teaming

Instructiehiërarchie vermindert de effectiviteit van directe prompt-injectie aanzienlijk, maar:

Prioriteitsverwarringsaanvallen -- input maken die het model interpreteert als systeemniveau (bijv. formaatnabootsing die het model ervan overtuigt dat de tekst deel uitmaakt van de systeemprompt)
Hiërarchie-uitputting -- zeer lange inputs gebruiken die de aandacht van het model voor de systeemprompt verdunnen, waardoor de prioriteit ervan effectief wordt verlaagd
Indirecte kanalen -- instructiehiërarchie geldt doorgaans het sterkst voor het gebruikersberichtkanaal; tooloutputs en opgehaalde documenten kunnen een zwakkere hiërarchiehandhaving hebben

Constitutional AI (CAI)

Het mechanisme

Constitutional AI vervangt een deel van het menselijke toezicht door zelftoezicht van het model:

Genereer initiële reactie
Het model produceert een reactie op een query, mogelijk inclusief schadelijke inhoud.
Zelfkritiek
Het model evalueert zijn eigen reactie tegen een reeks constitutionele principes: "Helpt deze reactie bij illegale activiteiten? Is het misleidend? Bevat het schadelijke bias?"
Herzien
Op basis van zelfkritiek genereert het model een herziene reactie die zich beter aan de principes houdt.
Trainen op herzieningen
De herziene reacties worden gebruikt als trainingsdata, wat het model leert om direct principiële reacties te produceren.

Sterke en zwakke punten

Sterk punt	Zwak punt
Schaalt zonder menselijke beoordelaars	Grondwet kan onvolledig of dubbelzinnig zijn
Principes zijn expliciet en controleerbaar	Model kan principes verkeerd interpreteren of toepassen
Vermindert subjectiviteit in veiligheidstraining	Adversariële inputs kunnen schadelijke inhoud herkaderen als principe-conform
Dekt long-tail-scenario's beter dan menselijke data	Zelfkritiek heeft dezelfde blinde vlekken als het model zelf

Implicaties voor red teaming

Principe-herkadering -- als de grondwet zegt "help niet bij illegale activiteiten," kader het verzoek dan als legaal (onderzoek, educatie, fictie)
Principeconflicten -- vind scenario's waarin constitutionele principes met elkaar conflicteren, waardoor het model gedwongen wordt het ene boven het andere te prioriteren
Kritiekblindheid -- de zelfkritiek van het model deelt zijn eigen biases; aanvallen die de blinde vlekken van het model exploiteren, omzeilen zowel generatie als kritiek

Representation engineering voor veiligheid

De aanpak

Voortbouwend op activatie-analyse-onderzoek identificeert representation engineering veiligheidsrelevante richtingen in de interne representatieruimte van het model en gebruikt deze voor verdediging:

Veiligheidsprobes -- lineaire classifiers getraind op verborgen toestanden om te detecteren wanneer het model onveilige inhoud genereert, zelfs als de outputtekst onschadelijk lijkt
Activatiebeperkingen -- de forward pass van het model aanpassen om activaties binnen een "veilige" regio van de representatieruimte te houden
Versterking van de weigeringsrichting -- de weigeringsrichting versterken die in representation engineering-onderzoek is geïdentificeerd, waardoor veiligheidstraining moeilijker te omzeilen wordt

Implementatiestatus

Techniek	Volwassenheid	Geïmplementeerd?
Veiligheidsprobes voor detectie	Onderzoek → Vroege productie	Beperkt (sommige providers gebruiken het intern)
Activatiebeperkingen	Onderzoek	Nee
Versterking van de weigeringsrichting	Onderzoek	Nee
Representatiemonitoring	Onderzoek → Experimenteel	Beperkt

Verdediging	Paper gepubliceerd	Productieklaar	Breed geïmplementeerd
Instructiehiërarchie	2023	2024	2025+
Constitutional AI	2022	2023	2024+ (Anthropic)
Representation engineering	2023	Nog te bepalen	Nog niet
Gecertificeerde robuustheid	2023	Nog te bepalen	Nog niet
Prompt-firewalls	2024	2025	Beperkt
Gedragscontracten	2024	Nog te bepalen	Nog niet

Verder lezen

Activatie-analyse & exploitatie van verborgen toestanden -- de offensieve tegenhanger van representation engineering
Watermarking & detectie van AI-gegenereerde tekst -- een andere geavanceerde verdedigingstechniek
Het AI-verdedigingslandschap -- breder beeld van geïmplementeerde verdedigingen
Guardrails- & veiligheidslaagarchitectuur -- waar geavanceerde technieken architecturaal passen

Gerelateerde onderwerpen

Guardrails- & veiligheidslaagarchitectuur - Waar geavanceerde technieken architecturaal passen
Watermarking & detectie van AI-gegenereerde tekst - Een andere geavanceerde verdedigingstechniek
Het AI-verdedigingslandschap - Breder beeld van geïmplementeerde verdedigingen en hun volwassenheid
Pre-training, fine-tuning, RLHF-pipeline - Trainingsfasen waarin constitutional AI en instructiehiërarchie worden toegepast

Referenties

"The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace et al., OpenAI (2024) - Het paper dat instructiehiërarchie-training voor prompt-injectieverdediging introduceert
"Constitutional AI: Harmlessness from AI Feedback" - Bai et al., Anthropic (2022) - Het funderende paper over het gebruik van zelfkritiek door modellen voor alignment
"Representation Engineering: A Top-Down Approach to AI Transparency" - Zou et al., Center for AI Safety (2023) - Onderzoek naar het lezen en aansturen van modelinternals via de representatieruimte
"Certified Robustness to Adversarial Word Substitutions" - Jia et al. (2019) - Vroeg werk over formele verificatieaanpakken voor robuustheid van NLP-modellen

Knowledge Check

Waarom vermindert instructiehiërarchie de effectiviteit van prompt-injectie aanzienlijk, maar elimineert het deze niet volledig?

Geavanceerde verdedigingstechnieken

Genereer initiële reactie

Zelfkritiek

Herzien

Trainen op herzieningen

Leerpad

Gerelateerde artikelen

Geavanceerde verdedigingstechnieken

Genereer initiële reactie

Zelfkritiek

Herzien

Trainen op herzieningen

Leerpad

Gerelateerde artikelen