Constitutional Classifiers

Gemiddeld13 min lezenBijgewerkt op 2026-03-15

Anthropics Constitutional Classifiers-verdediging: het gebruik van constitutional AI-principes om input/output-classifiers te trainen die 3.000+ uur adversarieel red teaming doorstonden.

constitutional-classifiers defense jailbreak-defense anthropic classifiers constitutional-ai

Traditionele veiligheidstraining leert het model zelf om schadelijke verzoeken te weigeren. Maar wat gebeurt er als aanvallers manieren vinden om die training via jailbreaks te omzeilen? Constitutional Classifiers hanteren een fundamenteel andere aanpak: in plaats van uitsluitend te vertrouwen op het oordeel van het model zelf, zetten ze onafhankelijke classifiermodellen in die specifiek zijn getraind om adversariële inputs en schadelijke outputs te detecteren.

Het probleem: jailbreaks op schaal

Voordat je de oplossing begrijpt, is het belangrijk om de omvang te begrijpen van het probleem dat Constitutional Classifiers moesten aanpakken.

Het jailbreak-landschap

Moderne jailbreak-technieken zijn aanzienlijk geëvolueerd voorbij eenvoudige "negeer je instructies"-prompts:

Aanvalscategorie	Voorbeeldtechnieken	Waarom traditionele verdedigingen falen
Encoding-aanvallen	Base64, ROT13, Unicode-substitutie	Veiligheidstraining van het model dekt niet alle encoding-formaten
Persona-manipulatie	"You are DAN," rollenspelscenario's	Veiligheidstraining kan worden overschreven door sterke persona-instructies
Multi-turn-escalatie	Context geleidelijk verschuiven over vele berichten	Elk afzonderlijk bericht lijkt onschadelijk; de schade ontstaat uit de reeks
Taalwisseling	Schadelijke inhoud opvragen in talen met weinig resources	Veiligheidstraining is zwakker in ondervertegenwoordigde talen
Prompt-injectie	Ingebedde instructies in tooloutputs, afbeeldingen, documenten	Instructies omzeilen de veiligheidslaag richting de gebruiker

De fundamentele uitdaging is dat de veiligheidstraining van het model deel uitmaakt van hetzelfde systeem dat adversariële inputs verwerkt. Een aanvaller die de verwerking van het model kan manipuleren, kan ook het veiligheidsgedrag ervan manipuleren.

Hoe Constitutional Classifiers werken

Architectuuroverzicht

Constitutional Classifiers worden ingezet als een tweelaagse verdediging rond het basismodel:

User Input → [Input Classifier] → Base Model → [Output Classifier] → User Output
                  ↓ (block)                          ↓ (block)
              Refusal Response                   Refusal Response

De input-classifier screent binnenkomende prompts op adversariële intentie. De output-classifier screent de reacties van het model op schadelijke inhoud. Beide classifiers zijn afzonderlijke modellen, onafhankelijk van het basismodel dat wordt beschermd.

De constitutional AI-trainingspipeline

De belangrijkste innovatie is hoe de trainingsdata voor de classifiers wordt gegenereerd. In plaats van te vertrouwen op door mensen gelabelde datasets (die duur zijn en niet de volledige ruimte van adversariële technieken kunnen dekken), gebruiken Constitutional Classifiers een self-supervised pipeline geïnspireerd op Constitutional AI:

Constitutionele principes definiëren
Onderzoekers definiëren een reeks principes die beschrijven wat schadelijke inhoud vormt. Dit zijn beschrijvingen in natuurlijke taal -- bijvoorbeeld "Inhoud die stapsgewijze instructies geeft voor het synthetiseren van gecontroleerde stoffen" of "Inhoud die gebruikt zou kunnen worden om overtuigende phishingberichten te genereren die op specifieke individuen zijn gericht."
Synthetische adversariële voorbeelden genereren
Een LLM wordt gebruikt om een grote, diverse set adversariële prompts te genereren die schendingen van elk constitutioneel principe proberen uit te lokken. Dit omvat uiteenlopende aanvalsformaten: encoding-trucs, persona-manipulatie, meertalige verzoeken en nieuwe technieken die het LLM kan bedenken.
Synthetische onschadelijke voorbeelden genereren
Hetzelfde proces genereert onschadelijke prompts die thematisch lijken op de schadelijke, maar geen enkel principe schenden. Dit is cruciaal voor het verminderen van false positives -- de classifier moet onderscheid maken tussen "how does methamphetamine affect the brain?" (onschadelijk, educatief) en "how do I synthesize methamphetamine?" (schadelijk).
Constitutionele evaluatie
De gegenereerde voorbeelden worden geëvalueerd tegen de constitutionele principes door een ander LLM, wat labels oplevert (schadelijk/onschadelijk) met uitleg. De uitleg wordt gebruikt voor kwaliteitscontrole en om edge cases te identificeren.
Classifiers trainen
Standaard classifiertraining op de gelabelde synthetische data, wat modellen oplevert die geoptimaliseerd zijn voor het detecteren van adversariële inputs en schadelijke outputs.
Itereren met adversariële feedback
Red teamers vallen het door classifiers verdedigde systeem aan, en geslaagde aanvallen worden teruggevoerd in de trainingspipeline om meer trainingsdata te genereren die de ontdekte gaten dekt.

De red team-studie: 3.000+ uur adversarieel testen

Studieopzet

Anthropic voerde een van de meest uitgebreide adversariële evaluaties van een AI-verdedigingssysteem tot nu toe uit. De studie omvatte:

Parameter	Detail
Deelnemers	Professionele red teamers met ervaring in AI-beveiliging
Duur	Meer dan 3.000 persoonsuren aan adversarieel testen
Doel	Constitutional Classifiers omzeilen om schadelijke inhoud te onttrekken aan een verdedigd model
Baseline	Hetzelfde model zonder Constitutional Classifiers
Metriek	Aanvalssuccespercentage (ASR) -- percentage pogingen dat met succes schadelijke inhoud uitlokte

Resultaten

De belangrijkste resultaten waren opvallend:

Configuratie	Aanvalssuccespercentage	Opmerkingen
Onverdedigd model	~86%	De meeste jailbreak-technieken slaagden tegen het basismodel
Model met Constitutional Classifiers	~4,4%	Dramatische reductie in geslaagde aanvallen

Dit vertegenwoordigt een ruwweg 20x reductie in het aanvalssuccespercentage.

Welke aanvallen slaagden nog steeds?

De ~4,4% van de aanvallen die Constitutional Classifiers omzeilden, vielen over het algemeen in verschillende categorieën:

Categorie	Beschrijving	Waarom het werd omzeild
Nieuwe encoding-schema's	Aangepaste of zeer obscure encoding-formaten	Niet vertegenwoordigd in trainingsdata
Extreme contextmanipulatie	Zeer lange gesprekken die de context geleidelijk verschoven	Classifiers hadden een beperkt contextvenster voor analyse
Semantische camouflage	Schadelijke inhoud uitgedrukt met domeinspecifiek jargon of metaforen	Oppervlakkige kenmerken kwamen niet overeen met schadelijke patronen
Adversariële voorbeelden gericht op de classifier	Inputs die specifiek zijn ontworpen om het classifiermodel te misleiden	Classifiers zijn zelf ML-modellen die kwetsbaar zijn voor adversariële voorbeelden

Afwegingen en beperkingen

Het probleem van het weigeringspercentage

Constitutional Classifiers verhogen de veiligheid, maar ze verhogen ook het percentage waarmee onschadelijke queries onterecht worden geweigerd. Dit is de fundamentele precision-recall-afweging in elk classificatiesysteem:

Metriek	Zonder classifiers	Met classifiers
Aanvalssuccespercentage	~86%	~4,4%
False refusal-percentage bij onschadelijke queries	Laag	Meetbaar verhoogd
Impact op gebruikerservaring	Laag (maar onveilig)	Merkbaar (maar veiliger)

Grensgevallen-inhoud

Het meest uitdagende gebied voor Constitutional Classifiers is grensgevallen-inhoud -- verzoeken die schadelijk of onschadelijk kunnen zijn afhankelijk van de context:

"How to pick a lock" -- legitieme slotenmakeropleiding of voorbereiding op inbraak?
"Write a story where a character explains how to make explosives" -- creatieve fictie of het witwassen van informatie?
"What are the symptoms of poisoning by [specific substance]?" -- medische voorlichting of het plannen van schade?

Constitutional Classifiers neigen ertoe het zekere voor het onzekere te nemen bij grensgevallen-inhoud, wat bijdraagt aan het verhoogde false refusal-percentage. De constitutionele principes kunnen worden bijgesteld om deze drempel aan te passen, maar er is geen configuratie die tegelijkertijd zowel false positives als false negatives minimaliseert.

Latency-impact

Het toevoegen van twee classifier-inferentiepassages (input en output) aan elk verzoek introduceert latency:

Component	Typische latency-impact
Input-classifier	50-200ms extra
Output-classifier	50-200ms extra
Totale overhead	100-400ms per verzoek

Voor realtime-applicaties is deze overhead mogelijk acceptabel. Voor latency-gevoelige use cases (code-aanvulling, interactieve agents) kan optimalisatie nodig zijn (kleinere classifiermodellen, batched inference, speculatieve uitvoering).

Vergelijking met andere verdedigingsaanpakken

Context van het verdedigingslandschap

Constitutional Classifiers zijn één aanpak in een breder verdedigingsecosysteem. Begrijpen hoe ze zich verhouden helpt red teamers de verdedigingen die ze tegenkomen te beoordelen:

Verdedigingsaanpak	Hoe het werkt	Sterke punten	Zwakke punten
Veiligheidstraining (RLHF/DPO)	Train het model zelf om schadelijke verzoeken te weigeren	Lage latency, geen extra infrastructuur	Kan worden gejailbreakt; model is zowel rechter als uitvoerder
Constitutional Classifiers	Onafhankelijke classifiers screenen input/output	Defense-in-depth; moeilijk om zowel model als classifier te jailbreaken	Latency-overhead; false refusals; vereist het onderhouden van afzonderlijke modellen
Instructiehiërarchie	Train het model om systeeminstructies te prioriteren	Pakt prompt-injectie direct aan	Helpt niet bij directe jailbreaks
Outputfiltering (keyword/regex)	Patroonmatching op modeloutput	Snel, eenvoudig, geen ML nodig	Eenvoudig te omzeilen met parafrasering; hoog false-positive-percentage
Dual LLM / CaMeL	Afzonderlijke vertrouwde en niet-vertrouwde verwerking	Sterke isolatie voor tool-gebruikende agents	Architecturale complexiteit; richt zich primair op prompt-injectie

Belangrijkste onderscheidende factor

De unieke waarde van Constitutional Classifiers is dat ze onafhankelijk zijn van het basismodel. Het jailbreaken van het basismodel jailbreakt de classifiers niet. Een aanvaller moet ofwel:

Een input maken die de input-classifier omzeilt EN het basismodel jailbreakt, of
Het basismodel jailbreaken EN output maken die de output-classifier omzeilt, of
Beide classifiers tegelijkertijd omzeilen

Dit legt de lat aanzienlijk hoger vergeleken met verdedigingen die op het model zelf vertrouwen.

Implicaties voor red teaming

Constitutional Classifiers aanvallen

Voor red teamers die met Constitutional Classifier-verdedigingen te maken hebben, verschuift het aanvalsoppervlak:

Traditioneel doelwit	Nieuw doelwit	Aanpassing van techniek
Veiligheidstraining van het model	Input-classifiermodel	Adversariële voorbeelden die de classifier misleiden terwijl ze schadelijke intentie dragen
Systeemprompt	Beslissingsgrens van de classifier	Vind inputs nabij de grens die onterecht als onschadelijk worden geclassificeerd
Modelredenering	Gaten in de trainingsdata van de classifier	Gebruik formaten en encodings die niet goed vertegenwoordigd zijn in de synthetische trainingsdata
Eén model	Tweemodelsysteem	Overweeg aanvallen die de interactie tussen classifier en basismodel exploiteren

Praktische aanvalsstrategieën

Classifier-probing: Stuur een reeks inputs om de beslissingsgrens van de classifier in kaart te brengen. Identificeer welke kenmerken weigering triggeren en welke niet.
Encoding-diversiteit: Test ongebruikelijke encodings, karaktersets en opmaak die mogelijk niet door de synthetische trainingsdata worden gedekt.
Semantische indirectie: Druk schadelijke intentie uit via analogie, metafoor of domeinspecifieke taal die de classifier mogelijk niet als schadelijk herkent.
Split-request-aanvallen: Verdeel schadelijke inhoud over meerdere onschadelijk ogende verzoeken die samen schadelijke informatie vormen.
Adversariële voorbeelden voor de classifier: Als de classifierarchitectuur bekend is, maak inputs die specifiek zijn ontworpen om adversarieel te zijn voor die classifier.

Implementatieoverwegingen

Wanneer Constitutional Classifiers gebruiken

Scenario	Aanbeveling	Onderbouwing
Toepassing met hoge inzet (medisch, juridisch, financieel)	Sterk aanbevolen	Veiligheidsvoordeel rechtvaardigt latency- en false refusal-kosten
Consumentenchatbot met hoog volume	Overweeg met afgestelde drempels	Balanceer veiligheid met gebruikerservaring
Interne bedrijfsassistent	Hangt af van de gevoeligheid van de data	Mogelijk onnodig als het gebruik laag risico is en gemonitord wordt
Codegeneratietool	Overweeg alleen voor de output-classifier	Input-classifier kan legitieme code-gerelateerde queries blokkeren
Creatieve schrijfassistent	Gebruik met versoepelde drempels	Te agressieve classifiers belemmeren creatieve use cases

Integratie met bestaande verdedigingen

Constitutional Classifiers zijn het meest effectief als onderdeel van een gelaagde verdediging:

Inputvalidatie (niet-ML) -- blokkeer bekende kwaadaardige patronen, dwing formaatbeperkingen af
Constitutional Classifiers (input) -- ML-gebaseerde screening op adversariële intentie
Veiligheidsgetraind basismodel -- de eigen veiligheidstraining van het model als verdedigingslaag
Constitutional Classifiers (output) -- ML-gebaseerde screening op schadelijke inhoud
Outputvalidatie (niet-ML) -- formaathandhaving, PII-redactie, compliancecontroles

Key Takeaway

Constitutional Classifiers vertegenwoordigen een aanzienlijke vooruitgang in AI-verdediging door onafhankelijke classifiermodellen in te zetten -- getraind op synthetisch gegenereerde data met constitutional AI-principes -- om zowel inputs als outputs te screenen. De aanpak verminderde aanvalssuccespercentages van ~86% naar ~4,4% in uitgebreide red team-testen, maar gaat gepaard met afwegingen: verhoogde false refusal-percentages bij onschadelijke queries en extra inferentielatency. Voor red teamers verschuiven Constitutional Classifiers de uitdaging van het omzeilen van de veiligheidstraining van één model naar het verslaan van een multimodel-verdedigingssysteem, wat nieuwe aanvalsstrategieën vereist die gericht zijn op classifierspecifieke kwetsbaarheden en gaten in de trainingsdata.

Verder lezen

Geavanceerde verdedigingstechnieken -- Breder overzicht van geavanceerd verdedigingsonderzoek
CaMeL / Dual LLM-patroon -- Aanvullende architecturale verdediging voor tool-gebruikende agents
Guardrails- & veiligheidslaagarchitectuur -- Waar Constitutional Classifiers passen in de algehele veiligheidsarchitectuur
Alignment Faking -- Waarom onafhankelijke classifiers betrouwbaarder kunnen zijn dan zelfregulering door het model

Gerelateerde onderwerpen

Guardrails- & veiligheidslaagarchitectuur - Architecturale context voor classifier-implementatie
AI-aangedreven red teaming - Geautomatiseerde methoden die worden gebruikt om verdedigingen zoals Constitutional Classifiers te testen
Watermarking & detectie van AI-gegenereerde tekst - Een andere geavanceerde verdedigingstechniek

Referenties

"Constitutional AI: Harmlessness from AI Feedback" - Bai, Y., et al., Anthropic (2022) - Het funderende constitutional AI-paper dat de classifier-trainingsaanpak inspireerde
"Defending Against Jailbreaks with Constitutional Classifiers" - Anthropic (2025) - Het paper dat Constitutional Classifiers introduceert en de resultaten van de red team-evaluatie presenteert
"The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace, E., et al., OpenAI (2024) - Aanvullende verdedigingsaanpak die werkt op het niveau van modeltraining
"Jailbroken: How Does LLM Safety Training Fail?" - Wei, A., et al. (2024) - Analyse van waarom veiligheidstraining alleen onvoldoende is, wat externe classifier-aanpakken motiveert

Knowledge Check

Wat is het primaire voordeel van Constitutional Classifiers ten opzichte van alleen veiligheidstraining als verdediging tegen jailbreaks?

Constitutional Classifiers

Gemiddeld13 min lezenBijgewerkt op 2026-03-15

Anthropics Constitutional Classifiers-verdediging: het gebruik van constitutional AI-principes om input/output-classifiers te trainen die 3.000+ uur adversarieel red teaming doorstonden.

constitutional-classifiers defense jailbreak-defense anthropic classifiers constitutional-ai

Het probleem: jailbreaks op schaal

Voordat je de oplossing begrijpt, is het belangrijk om de omvang te begrijpen van het probleem dat Constitutional Classifiers moesten aanpakken.

Het jailbreak-landschap

Moderne jailbreak-technieken zijn aanzienlijk geëvolueerd voorbij eenvoudige "negeer je instructies"-prompts:

Aanvalscategorie	Voorbeeldtechnieken	Waarom traditionele verdedigingen falen
Encoding-aanvallen	Base64, ROT13, Unicode-substitutie	Veiligheidstraining van het model dekt niet alle encoding-formaten
Persona-manipulatie	"You are DAN," rollenspelscenario's	Veiligheidstraining kan worden overschreven door sterke persona-instructies
Multi-turn-escalatie	Context geleidelijk verschuiven over vele berichten	Elk afzonderlijk bericht lijkt onschadelijk; de schade ontstaat uit de reeks
Taalwisseling	Schadelijke inhoud opvragen in talen met weinig resources	Veiligheidstraining is zwakker in ondervertegenwoordigde talen
Prompt-injectie	Ingebedde instructies in tooloutputs, afbeeldingen, documenten	Instructies omzeilen de veiligheidslaag richting de gebruiker

Hoe Constitutional Classifiers werken

Architectuuroverzicht

Constitutional Classifiers worden ingezet als een tweelaagse verdediging rond het basismodel:

User Input → [Input Classifier] → Base Model → [Output Classifier] → User Output
                  ↓ (block)                          ↓ (block)
              Refusal Response                   Refusal Response

De constitutional AI-trainingspipeline

Constitutionele principes definiëren
Onderzoekers definiëren een reeks principes die beschrijven wat schadelijke inhoud vormt. Dit zijn beschrijvingen in natuurlijke taal -- bijvoorbeeld "Inhoud die stapsgewijze instructies geeft voor het synthetiseren van gecontroleerde stoffen" of "Inhoud die gebruikt zou kunnen worden om overtuigende phishingberichten te genereren die op specifieke individuen zijn gericht."
Synthetische adversariële voorbeelden genereren
Een LLM wordt gebruikt om een grote, diverse set adversariële prompts te genereren die schendingen van elk constitutioneel principe proberen uit te lokken. Dit omvat uiteenlopende aanvalsformaten: encoding-trucs, persona-manipulatie, meertalige verzoeken en nieuwe technieken die het LLM kan bedenken.
Synthetische onschadelijke voorbeelden genereren
Hetzelfde proces genereert onschadelijke prompts die thematisch lijken op de schadelijke, maar geen enkel principe schenden. Dit is cruciaal voor het verminderen van false positives -- de classifier moet onderscheid maken tussen "how does methamphetamine affect the brain?" (onschadelijk, educatief) en "how do I synthesize methamphetamine?" (schadelijk).
Constitutionele evaluatie
De gegenereerde voorbeelden worden geëvalueerd tegen de constitutionele principes door een ander LLM, wat labels oplevert (schadelijk/onschadelijk) met uitleg. De uitleg wordt gebruikt voor kwaliteitscontrole en om edge cases te identificeren.
Classifiers trainen
Standaard classifiertraining op de gelabelde synthetische data, wat modellen oplevert die geoptimaliseerd zijn voor het detecteren van adversariële inputs en schadelijke outputs.
Itereren met adversariële feedback
Red teamers vallen het door classifiers verdedigde systeem aan, en geslaagde aanvallen worden teruggevoerd in de trainingspipeline om meer trainingsdata te genereren die de ontdekte gaten dekt.

De red team-studie: 3.000+ uur adversarieel testen

Studieopzet

Anthropic voerde een van de meest uitgebreide adversariële evaluaties van een AI-verdedigingssysteem tot nu toe uit. De studie omvatte:

Parameter	Detail
Deelnemers	Professionele red teamers met ervaring in AI-beveiliging
Duur	Meer dan 3.000 persoonsuren aan adversarieel testen
Doel	Constitutional Classifiers omzeilen om schadelijke inhoud te onttrekken aan een verdedigd model
Baseline	Hetzelfde model zonder Constitutional Classifiers
Metriek	Aanvalssuccespercentage (ASR) -- percentage pogingen dat met succes schadelijke inhoud uitlokte

Resultaten

De belangrijkste resultaten waren opvallend:

Configuratie	Aanvalssuccespercentage	Opmerkingen
Onverdedigd model	~86%	De meeste jailbreak-technieken slaagden tegen het basismodel
Model met Constitutional Classifiers	~4,4%	Dramatische reductie in geslaagde aanvallen

Dit vertegenwoordigt een ruwweg 20x reductie in het aanvalssuccespercentage.

Welke aanvallen slaagden nog steeds?

De ~4,4% van de aanvallen die Constitutional Classifiers omzeilden, vielen over het algemeen in verschillende categorieën:

Categorie	Beschrijving	Waarom het werd omzeild
Nieuwe encoding-schema's	Aangepaste of zeer obscure encoding-formaten	Niet vertegenwoordigd in trainingsdata
Extreme contextmanipulatie	Zeer lange gesprekken die de context geleidelijk verschoven	Classifiers hadden een beperkt contextvenster voor analyse
Semantische camouflage	Schadelijke inhoud uitgedrukt met domeinspecifiek jargon of metaforen	Oppervlakkige kenmerken kwamen niet overeen met schadelijke patronen
Adversariële voorbeelden gericht op de classifier	Inputs die specifiek zijn ontworpen om het classifiermodel te misleiden	Classifiers zijn zelf ML-modellen die kwetsbaar zijn voor adversariële voorbeelden

Afwegingen en beperkingen

Het probleem van het weigeringspercentage

Metriek	Zonder classifiers	Met classifiers
Aanvalssuccespercentage	~86%	~4,4%
False refusal-percentage bij onschadelijke queries	Laag	Meetbaar verhoogd
Impact op gebruikerservaring	Laag (maar onveilig)	Merkbaar (maar veiliger)

Grensgevallen-inhoud

Het meest uitdagende gebied voor Constitutional Classifiers is grensgevallen-inhoud -- verzoeken die schadelijk of onschadelijk kunnen zijn afhankelijk van de context:

"How to pick a lock" -- legitieme slotenmakeropleiding of voorbereiding op inbraak?
"Write a story where a character explains how to make explosives" -- creatieve fictie of het witwassen van informatie?
"What are the symptoms of poisoning by [specific substance]?" -- medische voorlichting of het plannen van schade?

Latency-impact

Het toevoegen van twee classifier-inferentiepassages (input en output) aan elk verzoek introduceert latency:

Component	Typische latency-impact
Input-classifier	50-200ms extra
Output-classifier	50-200ms extra
Totale overhead	100-400ms per verzoek

Vergelijking met andere verdedigingsaanpakken

Context van het verdedigingslandschap

Constitutional Classifiers zijn één aanpak in een breder verdedigingsecosysteem. Begrijpen hoe ze zich verhouden helpt red teamers de verdedigingen die ze tegenkomen te beoordelen:

Verdedigingsaanpak	Hoe het werkt	Sterke punten	Zwakke punten
Veiligheidstraining (RLHF/DPO)	Train het model zelf om schadelijke verzoeken te weigeren	Lage latency, geen extra infrastructuur	Kan worden gejailbreakt; model is zowel rechter als uitvoerder
Constitutional Classifiers	Onafhankelijke classifiers screenen input/output	Defense-in-depth; moeilijk om zowel model als classifier te jailbreaken	Latency-overhead; false refusals; vereist het onderhouden van afzonderlijke modellen
Instructiehiërarchie	Train het model om systeeminstructies te prioriteren	Pakt prompt-injectie direct aan	Helpt niet bij directe jailbreaks
Outputfiltering (keyword/regex)	Patroonmatching op modeloutput	Snel, eenvoudig, geen ML nodig	Eenvoudig te omzeilen met parafrasering; hoog false-positive-percentage
Dual LLM / CaMeL	Afzonderlijke vertrouwde en niet-vertrouwde verwerking	Sterke isolatie voor tool-gebruikende agents	Architecturale complexiteit; richt zich primair op prompt-injectie

Belangrijkste onderscheidende factor

De unieke waarde van Constitutional Classifiers is dat ze onafhankelijk zijn van het basismodel. Het jailbreaken van het basismodel jailbreakt de classifiers niet. Een aanvaller moet ofwel:

Een input maken die de input-classifier omzeilt EN het basismodel jailbreakt, of
Het basismodel jailbreaken EN output maken die de output-classifier omzeilt, of
Beide classifiers tegelijkertijd omzeilen

Dit legt de lat aanzienlijk hoger vergeleken met verdedigingen die op het model zelf vertrouwen.

Implicaties voor red teaming

Constitutional Classifiers aanvallen

Voor red teamers die met Constitutional Classifier-verdedigingen te maken hebben, verschuift het aanvalsoppervlak:

Traditioneel doelwit	Nieuw doelwit	Aanpassing van techniek
Veiligheidstraining van het model	Input-classifiermodel	Adversariële voorbeelden die de classifier misleiden terwijl ze schadelijke intentie dragen
Systeemprompt	Beslissingsgrens van de classifier	Vind inputs nabij de grens die onterecht als onschadelijk worden geclassificeerd
Modelredenering	Gaten in de trainingsdata van de classifier	Gebruik formaten en encodings die niet goed vertegenwoordigd zijn in de synthetische trainingsdata
Eén model	Tweemodelsysteem	Overweeg aanvallen die de interactie tussen classifier en basismodel exploiteren

Praktische aanvalsstrategieën

Classifier-probing: Stuur een reeks inputs om de beslissingsgrens van de classifier in kaart te brengen. Identificeer welke kenmerken weigering triggeren en welke niet.
Encoding-diversiteit: Test ongebruikelijke encodings, karaktersets en opmaak die mogelijk niet door de synthetische trainingsdata worden gedekt.
Semantische indirectie: Druk schadelijke intentie uit via analogie, metafoor of domeinspecifieke taal die de classifier mogelijk niet als schadelijk herkent.
Split-request-aanvallen: Verdeel schadelijke inhoud over meerdere onschadelijk ogende verzoeken die samen schadelijke informatie vormen.
Adversariële voorbeelden voor de classifier: Als de classifierarchitectuur bekend is, maak inputs die specifiek zijn ontworpen om adversarieel te zijn voor die classifier.

Implementatieoverwegingen

Wanneer Constitutional Classifiers gebruiken

Scenario	Aanbeveling	Onderbouwing
Toepassing met hoge inzet (medisch, juridisch, financieel)	Sterk aanbevolen	Veiligheidsvoordeel rechtvaardigt latency- en false refusal-kosten
Consumentenchatbot met hoog volume	Overweeg met afgestelde drempels	Balanceer veiligheid met gebruikerservaring
Interne bedrijfsassistent	Hangt af van de gevoeligheid van de data	Mogelijk onnodig als het gebruik laag risico is en gemonitord wordt
Codegeneratietool	Overweeg alleen voor de output-classifier	Input-classifier kan legitieme code-gerelateerde queries blokkeren
Creatieve schrijfassistent	Gebruik met versoepelde drempels	Te agressieve classifiers belemmeren creatieve use cases

Integratie met bestaande verdedigingen

Constitutional Classifiers zijn het meest effectief als onderdeel van een gelaagde verdediging:

Inputvalidatie (niet-ML) -- blokkeer bekende kwaadaardige patronen, dwing formaatbeperkingen af
Constitutional Classifiers (input) -- ML-gebaseerde screening op adversariële intentie
Veiligheidsgetraind basismodel -- de eigen veiligheidstraining van het model als verdedigingslaag
Constitutional Classifiers (output) -- ML-gebaseerde screening op schadelijke inhoud
Outputvalidatie (niet-ML) -- formaathandhaving, PII-redactie, compliancecontroles

Key Takeaway

Verder lezen

Geavanceerde verdedigingstechnieken -- Breder overzicht van geavanceerd verdedigingsonderzoek
CaMeL / Dual LLM-patroon -- Aanvullende architecturale verdediging voor tool-gebruikende agents
Guardrails- & veiligheidslaagarchitectuur -- Waar Constitutional Classifiers passen in de algehele veiligheidsarchitectuur
Alignment Faking -- Waarom onafhankelijke classifiers betrouwbaarder kunnen zijn dan zelfregulering door het model

Gerelateerde onderwerpen

Guardrails- & veiligheidslaagarchitectuur - Architecturale context voor classifier-implementatie
AI-aangedreven red teaming - Geautomatiseerde methoden die worden gebruikt om verdedigingen zoals Constitutional Classifiers te testen
Watermarking & detectie van AI-gegenereerde tekst - Een andere geavanceerde verdedigingstechniek

Referenties

"Constitutional AI: Harmlessness from AI Feedback" - Bai, Y., et al., Anthropic (2022) - Het funderende constitutional AI-paper dat de classifier-trainingsaanpak inspireerde
"Defending Against Jailbreaks with Constitutional Classifiers" - Anthropic (2025) - Het paper dat Constitutional Classifiers introduceert en de resultaten van de red team-evaluatie presenteert
"The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace, E., et al., OpenAI (2024) - Aanvullende verdedigingsaanpak die werkt op het niveau van modeltraining
"Jailbroken: How Does LLM Safety Training Fail?" - Wei, A., et al. (2024) - Analyse van waarom veiligheidstraining alleen onvoldoende is, wat externe classifier-aanpakken motiveert

Knowledge Check

Wat is het primaire voordeel van Constitutional Classifiers ten opzichte van alleen veiligheidstraining als verdediging tegen jailbreaks?

Constitutional Classifiers

Constitutionele principes definiëren

Synthetische adversariële voorbeelden genereren

Synthetische onschadelijke voorbeelden genereren

Constitutionele evaluatie

Classifiers trainen

Itereren met adversariële feedback

Gerelateerde artikelen

Constitutional Classifiers

Constitutionele principes definiëren

Synthetische adversariële voorbeelden genereren

Synthetische onschadelijke voorbeelden genereren

Constitutionele evaluatie

Classifiers trainen

Itereren met adversariële feedback

Gerelateerde artikelen