Constitutional Classifiers
Anthropics Constitutional Classifiers-verdediging: het gebruik van constitutional AI-principes om input/output-classifiers te trainen die 3.000+ uur adversarieel red teaming doorstonden.
Traditionele veiligheidstraining leert het model zelf om schadelijke verzoeken te weigeren. Maar wat gebeurt er als aanvallers manieren vinden om die training via jailbreaks te omzeilen? Constitutional Classifiers hanteren een fundamenteel andere aanpak: in plaats van uitsluitend te vertrouwen op het oordeel van het model zelf, zetten ze onafhankelijke classifiermodellen in die specifiek zijn getraind om adversariële inputs en schadelijke outputs te detecteren.
Het probleem: jailbreaks op schaal
Voordat je de oplossing begrijpt, is het belangrijk om de omvang te begrijpen van het probleem dat Constitutional Classifiers moesten aanpakken.
Het jailbreak-landschap
Moderne jailbreak-technieken zijn aanzienlijk geëvolueerd voorbij eenvoudige "negeer je instructies"-prompts:
| Aanvalscategorie | Voorbeeldtechnieken | Waarom traditionele verdedigingen falen |
|---|---|---|
| Encoding-aanvallen | Base64, ROT13, Unicode-substitutie | Veiligheidstraining van het model dekt niet alle encoding-formaten |
| Persona-manipulatie | "You are DAN," rollenspelscenario's | Veiligheidstraining kan worden overschreven door sterke persona-instructies |
| Multi-turn-escalatie | Context geleidelijk verschuiven over vele berichten | Elk afzonderlijk bericht lijkt onschadelijk; de schade ontstaat uit de reeks |
| Taalwisseling | Schadelijke inhoud opvragen in talen met weinig resources | Veiligheidstraining is zwakker in ondervertegenwoordigde talen |
| Prompt-injectie | Ingebedde instructies in tooloutputs, afbeeldingen, documenten | Instructies omzeilen de veiligheidslaag richting de gebruiker |
De fundamentele uitdaging is dat de veiligheidstraining van het model deel uitmaakt van hetzelfde systeem dat adversariële inputs verwerkt. Een aanvaller die de verwerking van het model kan manipuleren, kan ook het veiligheidsgedrag ervan manipuleren.
Hoe Constitutional Classifiers werken
Architectuuroverzicht
Constitutional Classifiers worden ingezet als een tweelaagse verdediging rond het basismodel:
User Input → [Input Classifier] → Base Model → [Output Classifier] → User Output
↓ (block) ↓ (block)
Refusal Response Refusal Response
De input-classifier screent binnenkomende prompts op adversariële intentie. De output-classifier screent de reacties van het model op schadelijke inhoud. Beide classifiers zijn afzonderlijke modellen, onafhankelijk van het basismodel dat wordt beschermd.
De constitutional AI-trainingspipeline
De belangrijkste innovatie is hoe de trainingsdata voor de classifiers wordt gegenereerd. In plaats van te vertrouwen op door mensen gelabelde datasets (die duur zijn en niet de volledige ruimte van adversariële technieken kunnen dekken), gebruiken Constitutional Classifiers een self-supervised pipeline geïnspireerd op Constitutional AI:
Constitutionele principes definiëren
Onderzoekers definiëren een reeks principes die beschrijven wat schadelijke inhoud vormt. Dit zijn beschrijvingen in natuurlijke taal -- bijvoorbeeld "Inhoud die stapsgewijze instructies geeft voor het synthetiseren van gecontroleerde stoffen" of "Inhoud die gebruikt zou kunnen worden om overtuigende phishingberichten te genereren die op specifieke individuen zijn gericht."
Synthetische adversariële voorbeelden genereren
Een LLM wordt gebruikt om een grote, diverse set adversariële prompts te genereren die schendingen van elk constitutioneel principe proberen uit te lokken. Dit omvat uiteenlopende aanvalsformaten: encoding-trucs, persona-manipulatie, meertalige verzoeken en nieuwe technieken die het LLM kan bedenken.
Synthetische onschadelijke voorbeelden genereren
Hetzelfde proces genereert onschadelijke prompts die thematisch lijken op de schadelijke, maar geen enkel principe schenden. Dit is cruciaal voor het verminderen van false positives -- de classifier moet onderscheid maken tussen "how does methamphetamine affect the brain?" (onschadelijk, educatief) en "how do I synthesize methamphetamine?" (schadelijk).
Constitutionele evaluatie
De gegenereerde voorbeelden worden geëvalueerd tegen de constitutionele principes door een ander LLM, wat labels oplevert (schadelijk/onschadelijk) met uitleg. De uitleg wordt gebruikt voor kwaliteitscontrole en om edge cases te identificeren.
Classifiers trainen
Standaard classifiertraining op de gelabelde synthetische data, wat modellen oplevert die geoptimaliseerd zijn voor het detecteren van adversariële inputs en schadelijke outputs.
Itereren met adversariële feedback
Red teamers vallen het door classifiers verdedigde systeem aan, en geslaagde aanvallen worden teruggevoerd in de trainingspipeline om meer trainingsdata te genereren die de ontdekte gaten dekt.
De red team-studie: 3.000+ uur adversarieel testen
Studieopzet
Anthropic voerde een van de meest uitgebreide adversariële evaluaties van een AI-verdedigingssysteem tot nu toe uit. De studie omvatte:
| Parameter | Detail |
|---|---|
| Deelnemers | Professionele red teamers met ervaring in AI-beveiliging |
| Duur | Meer dan 3.000 persoonsuren aan adversarieel testen |
| Doel | Constitutional Classifiers omzeilen om schadelijke inhoud te onttrekken aan een verdedigd model |
| Baseline | Hetzelfde model zonder Constitutional Classifiers |
| Metriek | Aanvalssuccespercentage (ASR) -- percentage pogingen dat met succes schadelijke inhoud uitlokte |
Resultaten
De belangrijkste resultaten waren opvallend:
| Configuratie | Aanvalssuccespercentage | Opmerkingen |
|---|---|---|
| Onverdedigd model | ~86% | De meeste jailbreak-technieken slaagden tegen het basismodel |
| Model met Constitutional Classifiers | ~4,4% | Dramatische reductie in geslaagde aanvallen |
Dit vertegenwoordigt een ruwweg 20x reductie in het aanvalssuccespercentage.
Welke aanvallen slaagden nog steeds?
De ~4,4% van de aanvallen die Constitutional Classifiers omzeilden, vielen over het algemeen in verschillende categorieën:
| Categorie | Beschrijving | Waarom het werd omzeild |
|---|---|---|
| Nieuwe encoding-schema's | Aangepaste of zeer obscure encoding-formaten | Niet vertegenwoordigd in trainingsdata |
| Extreme contextmanipulatie | Zeer lange gesprekken die de context geleidelijk verschoven | Classifiers hadden een beperkt contextvenster voor analyse |
| Semantische camouflage | Schadelijke inhoud uitgedrukt met domeinspecifiek jargon of metaforen | Oppervlakkige kenmerken kwamen niet overeen met schadelijke patronen |
| Adversariële voorbeelden gericht op de classifier | Inputs die specifiek zijn ontworpen om het classifiermodel te misleiden | Classifiers zijn zelf ML-modellen die kwetsbaar zijn voor adversariële voorbeelden |
Afwegingen en beperkingen
Het probleem van het weigeringspercentage
Constitutional Classifiers verhogen de veiligheid, maar ze verhogen ook het percentage waarmee onschadelijke queries onterecht worden geweigerd. Dit is de fundamentele precision-recall-afweging in elk classificatiesysteem:
| Metriek | Zonder classifiers | Met classifiers |
|---|---|---|
| Aanvalssuccespercentage | ~86% | ~4,4% |
| False refusal-percentage bij onschadelijke queries | Laag | Meetbaar verhoogd |
| Impact op gebruikerservaring | Laag (maar onveilig) | Merkbaar (maar veiliger) |
Grensgevallen-inhoud
Het meest uitdagende gebied voor Constitutional Classifiers is grensgevallen-inhoud -- verzoeken die schadelijk of onschadelijk kunnen zijn afhankelijk van de context:
- "How to pick a lock" -- legitieme slotenmakeropleiding of voorbereiding op inbraak?
- "Write a story where a character explains how to make explosives" -- creatieve fictie of het witwassen van informatie?
- "What are the symptoms of poisoning by [specific substance]?" -- medische voorlichting of het plannen van schade?
Constitutional Classifiers neigen ertoe het zekere voor het onzekere te nemen bij grensgevallen-inhoud, wat bijdraagt aan het verhoogde false refusal-percentage. De constitutionele principes kunnen worden bijgesteld om deze drempel aan te passen, maar er is geen configuratie die tegelijkertijd zowel false positives als false negatives minimaliseert.
Latency-impact
Het toevoegen van twee classifier-inferentiepassages (input en output) aan elk verzoek introduceert latency:
| Component | Typische latency-impact |
|---|---|
| Input-classifier | 50-200ms extra |
| Output-classifier | 50-200ms extra |
| Totale overhead | 100-400ms per verzoek |
Voor realtime-applicaties is deze overhead mogelijk acceptabel. Voor latency-gevoelige use cases (code-aanvulling, interactieve agents) kan optimalisatie nodig zijn (kleinere classifiermodellen, batched inference, speculatieve uitvoering).
Vergelijking met andere verdedigingsaanpakken
Context van het verdedigingslandschap
Constitutional Classifiers zijn één aanpak in een breder verdedigingsecosysteem. Begrijpen hoe ze zich verhouden helpt red teamers de verdedigingen die ze tegenkomen te beoordelen:
| Verdedigingsaanpak | Hoe het werkt | Sterke punten | Zwakke punten |
|---|---|---|---|
| Veiligheidstraining (RLHF/DPO) | Train het model zelf om schadelijke verzoeken te weigeren | Lage latency, geen extra infrastructuur | Kan worden gejailbreakt; model is zowel rechter als uitvoerder |
| Constitutional Classifiers | Onafhankelijke classifiers screenen input/output | Defense-in-depth; moeilijk om zowel model als classifier te jailbreaken | Latency-overhead; false refusals; vereist het onderhouden van afzonderlijke modellen |
| Instructiehiërarchie | Train het model om systeeminstructies te prioriteren | Pakt prompt-injectie direct aan | Helpt niet bij directe jailbreaks |
| Outputfiltering (keyword/regex) | Patroonmatching op modeloutput | Snel, eenvoudig, geen ML nodig | Eenvoudig te omzeilen met parafrasering; hoog false-positive-percentage |
| Dual LLM / CaMeL | Afzonderlijke vertrouwde en niet-vertrouwde verwerking | Sterke isolatie voor tool-gebruikende agents | Architecturale complexiteit; richt zich primair op prompt-injectie |
Belangrijkste onderscheidende factor
De unieke waarde van Constitutional Classifiers is dat ze onafhankelijk zijn van het basismodel. Het jailbreaken van het basismodel jailbreakt de classifiers niet. Een aanvaller moet ofwel:
- Een input maken die de input-classifier omzeilt EN het basismodel jailbreakt, of
- Het basismodel jailbreaken EN output maken die de output-classifier omzeilt, of
- Beide classifiers tegelijkertijd omzeilen
Dit legt de lat aanzienlijk hoger vergeleken met verdedigingen die op het model zelf vertrouwen.
Implicaties voor red teaming
Constitutional Classifiers aanvallen
Voor red teamers die met Constitutional Classifier-verdedigingen te maken hebben, verschuift het aanvalsoppervlak:
| Traditioneel doelwit | Nieuw doelwit | Aanpassing van techniek |
|---|---|---|
| Veiligheidstraining van het model | Input-classifiermodel | Adversariële voorbeelden die de classifier misleiden terwijl ze schadelijke intentie dragen |
| Systeemprompt | Beslissingsgrens van de classifier | Vind inputs nabij de grens die onterecht als onschadelijk worden geclassificeerd |
| Modelredenering | Gaten in de trainingsdata van de classifier | Gebruik formaten en encodings die niet goed vertegenwoordigd zijn in de synthetische trainingsdata |
| Eén model | Tweemodelsysteem | Overweeg aanvallen die de interactie tussen classifier en basismodel exploiteren |
Praktische aanvalsstrategieën
- Classifier-probing: Stuur een reeks inputs om de beslissingsgrens van de classifier in kaart te brengen. Identificeer welke kenmerken weigering triggeren en welke niet.
- Encoding-diversiteit: Test ongebruikelijke encodings, karaktersets en opmaak die mogelijk niet door de synthetische trainingsdata worden gedekt.
- Semantische indirectie: Druk schadelijke intentie uit via analogie, metafoor of domeinspecifieke taal die de classifier mogelijk niet als schadelijk herkent.
- Split-request-aanvallen: Verdeel schadelijke inhoud over meerdere onschadelijk ogende verzoeken die samen schadelijke informatie vormen.
- Adversariële voorbeelden voor de classifier: Als de classifierarchitectuur bekend is, maak inputs die specifiek zijn ontworpen om adversarieel te zijn voor die classifier.
Implementatieoverwegingen
Wanneer Constitutional Classifiers gebruiken
| Scenario | Aanbeveling | Onderbouwing |
|---|---|---|
| Toepassing met hoge inzet (medisch, juridisch, financieel) | Sterk aanbevolen | Veiligheidsvoordeel rechtvaardigt latency- en false refusal-kosten |
| Consumentenchatbot met hoog volume | Overweeg met afgestelde drempels | Balanceer veiligheid met gebruikerservaring |
| Interne bedrijfsassistent | Hangt af van de gevoeligheid van de data | Mogelijk onnodig als het gebruik laag risico is en gemonitord wordt |
| Codegeneratietool | Overweeg alleen voor de output-classifier | Input-classifier kan legitieme code-gerelateerde queries blokkeren |
| Creatieve schrijfassistent | Gebruik met versoepelde drempels | Te agressieve classifiers belemmeren creatieve use cases |
Integratie met bestaande verdedigingen
Constitutional Classifiers zijn het meest effectief als onderdeel van een gelaagde verdediging:
- Inputvalidatie (niet-ML) -- blokkeer bekende kwaadaardige patronen, dwing formaatbeperkingen af
- Constitutional Classifiers (input) -- ML-gebaseerde screening op adversariële intentie
- Veiligheidsgetraind basismodel -- de eigen veiligheidstraining van het model als verdedigingslaag
- Constitutional Classifiers (output) -- ML-gebaseerde screening op schadelijke inhoud
- Outputvalidatie (niet-ML) -- formaathandhaving, PII-redactie, compliancecontroles
Verder lezen
- Geavanceerde verdedigingstechnieken -- Breder overzicht van geavanceerd verdedigingsonderzoek
- CaMeL / Dual LLM-patroon -- Aanvullende architecturale verdediging voor tool-gebruikende agents
- Guardrails- & veiligheidslaagarchitectuur -- Waar Constitutional Classifiers passen in de algehele veiligheidsarchitectuur
- Alignment Faking -- Waarom onafhankelijke classifiers betrouwbaarder kunnen zijn dan zelfregulering door het model
Gerelateerde onderwerpen
- Guardrails- & veiligheidslaagarchitectuur - Architecturale context voor classifier-implementatie
- AI-aangedreven red teaming - Geautomatiseerde methoden die worden gebruikt om verdedigingen zoals Constitutional Classifiers te testen
- Watermarking & detectie van AI-gegenereerde tekst - Een andere geavanceerde verdedigingstechniek
Referenties
- "Constitutional AI: Harmlessness from AI Feedback" - Bai, Y., et al., Anthropic (2022) - Het funderende constitutional AI-paper dat de classifier-trainingsaanpak inspireerde
- "Defending Against Jailbreaks with Constitutional Classifiers" - Anthropic (2025) - Het paper dat Constitutional Classifiers introduceert en de resultaten van de red team-evaluatie presenteert
- "The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace, E., et al., OpenAI (2024) - Aanvullende verdedigingsaanpak die werkt op het niveau van modeltraining
- "Jailbroken: How Does LLM Safety Training Fail?" - Wei, A., et al. (2024) - Analyse van waarom veiligheidstraining alleen onvoldoende is, wat externe classifier-aanpakken motiveert
Wat is het primaire voordeel van Constitutional Classifiers ten opzichte van alleen veiligheidstraining als verdediging tegen jailbreaks?