Geavanceerde verdedigingstechnieken
Geavanceerd verdedigingsonderzoek waaronder instructiehiërarchie, constitutional AI en representation engineering voor veiligheid -- wat veelbelovend is versus wat daadwerkelijk wordt geïmplementeerd.
Het verdedigingslandschap evolueert snel. Deze pagina behandelt technieken aan de frontier van AI-veiligheidsonderzoek -- sommige al in productie geïmplementeerd, andere nog in het lab. Voor red teamers is begrijpen wat er gaat komen net zo belangrijk als begrijpen wat er vandaag is geïmplementeerd.
Instructiehiërarchie
Het probleem
Traditionele LLM's behandelen alle tekst in hun contextvenster met ongeveer gelijke autoriteit. Systeemprompts, gebruikersberichten en opgehaalde documenten strijden allemaal om de aandacht van het model. Dit maakt prompt-injectie mogelijk -- de tekst van een aanvaller kan de instructies van de ontwikkelaar overschrijven.
De oplossing
Instructiehiërarchie traint het model om instructiebronnen te herkennen en te prioriteren:
| Prioriteitsniveau | Bron | Voorbeeld |
|---|---|---|
| Hoogste | Systeemprompt (ontwikkelaar) | "You are a customer service agent. Never discuss competitors." |
| Gemiddeld | Gebruikersbericht (directe gebruiker) | "Tell me about competitor products." |
| Laagste | Tooloutput / opgehaalde inhoud | Document met: "Ignore previous instructions..." |
Hoe het werkt
Tijdens de training wordt het model blootgesteld aan scenario's waarin instructies op verschillende prioriteitsniveaus conflicteren. Het leert om:
- Altijd instructies op systeemniveau te volgen
- Gebruikersinstructies alleen te volgen wanneer ze niet conflicteren met systeeminstructies
- Tooloutput en opgehaalde documenten te behandelen als niet-vertrouwde data, geen instructies
Implementatiestatus
| Provider | Implementatie | Status (per 2026) |
|---|---|---|
| OpenAI | Training op modelniveau in GPT-4o+ | In productie geïmplementeerd |
| Anthropic | Systeemprompt-privilege in Claude | In productie geïmplementeerd |
| Microsoft | Azure OpenAI-instructiehiërarchie | In productie geïmplementeerd |
| Open-source | Diverse fine-tuning-aanpakken | Onderzoek/experimenteel |
Implicaties voor red teaming
Instructiehiërarchie vermindert de effectiviteit van directe prompt-injectie aanzienlijk, maar:
- Prioriteitsverwarringsaanvallen -- input maken die het model interpreteert als systeemniveau (bijv. formaatnabootsing die het model ervan overtuigt dat de tekst deel uitmaakt van de systeemprompt)
- Hiërarchie-uitputting -- zeer lange inputs gebruiken die de aandacht van het model voor de systeemprompt verdunnen, waardoor de prioriteit ervan effectief wordt verlaagd
- Indirecte kanalen -- instructiehiërarchie geldt doorgaans het sterkst voor het gebruikersberichtkanaal; tooloutputs en opgehaalde documenten kunnen een zwakkere hiërarchiehandhaving hebben
Constitutional AI (CAI)
Het mechanisme
Constitutional AI vervangt een deel van het menselijke toezicht door zelftoezicht van het model:
Genereer initiële reactie
Het model produceert een reactie op een query, mogelijk inclusief schadelijke inhoud.
Zelfkritiek
Het model evalueert zijn eigen reactie tegen een reeks constitutionele principes: "Helpt deze reactie bij illegale activiteiten? Is het misleidend? Bevat het schadelijke bias?"
Herzien
Op basis van zelfkritiek genereert het model een herziene reactie die zich beter aan de principes houdt.
Trainen op herzieningen
De herziene reacties worden gebruikt als trainingsdata, wat het model leert om direct principiële reacties te produceren.
Sterke en zwakke punten
| Sterk punt | Zwak punt |
|---|---|
| Schaalt zonder menselijke beoordelaars | Grondwet kan onvolledig of dubbelzinnig zijn |
| Principes zijn expliciet en controleerbaar | Model kan principes verkeerd interpreteren of toepassen |
| Vermindert subjectiviteit in veiligheidstraining | Adversariële inputs kunnen schadelijke inhoud herkaderen als principe-conform |
| Dekt long-tail-scenario's beter dan menselijke data | Zelfkritiek heeft dezelfde blinde vlekken als het model zelf |
Implicaties voor red teaming
- Principe-herkadering -- als de grondwet zegt "help niet bij illegale activiteiten," kader het verzoek dan als legaal (onderzoek, educatie, fictie)
- Principeconflicten -- vind scenario's waarin constitutionele principes met elkaar conflicteren, waardoor het model gedwongen wordt het ene boven het andere te prioriteren
- Kritiekblindheid -- de zelfkritiek van het model deelt zijn eigen biases; aanvallen die de blinde vlekken van het model exploiteren, omzeilen zowel generatie als kritiek
Representation engineering voor veiligheid
De aanpak
Voortbouwend op activatie-analyse-onderzoek identificeert representation engineering veiligheidsrelevante richtingen in de interne representatieruimte van het model en gebruikt deze voor verdediging:
- Veiligheidsprobes -- lineaire classifiers getraind op verborgen toestanden om te detecteren wanneer het model onveilige inhoud genereert, zelfs als de outputtekst onschadelijk lijkt
- Activatiebeperkingen -- de forward pass van het model aanpassen om activaties binnen een "veilige" regio van de representatieruimte te houden
- Versterking van de weigeringsrichting -- de weigeringsrichting versterken die in representation engineering-onderzoek is geïdentificeerd, waardoor veiligheidstraining moeilijker te omzeilen wordt
Implementatiestatus
| Techniek | Volwassenheid | Geïmplementeerd? |
|---|---|---|
| Veiligheidsprobes voor detectie | Onderzoek → Vroege productie | Beperkt (sommige providers gebruiken het intern) |
| Activatiebeperkingen | Onderzoek | Nee |
| Versterking van de weigeringsrichting | Onderzoek | Nee |
| Representatiemonitoring | Onderzoek → Experimenteel | Beperkt |
Opkomende technieken
Prompt-firewalls
Speciale modellen die tussen de gebruiker en het primaire model zitten en inputs herschrijven om potentiële injecties te neutraliseren terwijl de intentie van de gebruiker behouden blijft. Anders dan shields (die blokkeren) -- firewalls transformeren.
Gecertificeerde robuustheid
Formele verificatietechnieken aangepast van adversariële ML die wiskundige garanties bieden over modelgedrag binnen gedefinieerde inputgrenzen. Momenteel beperkt tot kleine modellen en smalle eigenschappen.
Multimodel-consensus
Het gebruik van meerdere verschillende modellen (verschillende architecturen, verschillende trainingsdata) om hetzelfde verzoek te evalueren. Als modellen het oneens zijn over de vraag of een verzoek veilig is, wordt het gemarkeerd voor beoordeling. Aanvallen die werken op de ene modelarchitectuur kunnen falen op een andere.
Gedragscontracten
Formele specificaties van verwacht modelgedrag die op het moment van inferentie worden gecontroleerd. De output van het model moet voldoen aan het contract (postcondities) gegeven de input (precondities). Schendingen activeren terugvalgedrag.
Onderzoek versus geïmplementeerd: de realiteitscheck
| Verdediging | Paper gepubliceerd | Productieklaar | Breed geïmplementeerd |
|---|---|---|---|
| Instructiehiërarchie | 2023 | 2024 | 2025+ |
| Constitutional AI | 2022 | 2023 | 2024+ (Anthropic) |
| Representation engineering | 2023 | Nog te bepalen | Nog niet |
| Gecertificeerde robuustheid | 2023 | Nog te bepalen | Nog niet |
| Prompt-firewalls | 2024 | 2025 | Beperkt |
| Gedragscontracten | 2024 | Nog te bepalen | Nog niet |
Verder lezen
- Activatie-analyse & exploitatie van verborgen toestanden -- de offensieve tegenhanger van representation engineering
- Watermarking & detectie van AI-gegenereerde tekst -- een andere geavanceerde verdedigingstechniek
- Het AI-verdedigingslandschap -- breder beeld van geïmplementeerde verdedigingen
- Guardrails- & veiligheidslaagarchitectuur -- waar geavanceerde technieken architecturaal passen
Gerelateerde onderwerpen
- Guardrails- & veiligheidslaagarchitectuur - Waar geavanceerde technieken architecturaal passen
- Watermarking & detectie van AI-gegenereerde tekst - Een andere geavanceerde verdedigingstechniek
- Het AI-verdedigingslandschap - Breder beeld van geïmplementeerde verdedigingen en hun volwassenheid
- Pre-training, fine-tuning, RLHF-pipeline - Trainingsfasen waarin constitutional AI en instructiehiërarchie worden toegepast
Referenties
- "The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace et al., OpenAI (2024) - Het paper dat instructiehiërarchie-training voor prompt-injectieverdediging introduceert
- "Constitutional AI: Harmlessness from AI Feedback" - Bai et al., Anthropic (2022) - Het funderende paper over het gebruik van zelfkritiek door modellen voor alignment
- "Representation Engineering: A Top-Down Approach to AI Transparency" - Zou et al., Center for AI Safety (2023) - Onderzoek naar het lezen en aansturen van modelinternals via de representatieruimte
- "Certified Robustness to Adversarial Word Substitutions" - Jia et al. (2019) - Vroeg werk over formele verificatieaanpakken voor robuustheid van NLP-modellen
Waarom vermindert instructiehiërarchie de effectiviteit van prompt-injectie aanzienlijk, maar elimineert het deze niet volledig?