Defense Evaluation Methodology

Gemiddeld16 min lezenBijgewerkt op 2026-03-20

Systematische methodologie voor het evalueren van de effectiviteit van AI-verdedigingen tegen bekende aanvalscategorieën.

defense evaluation methodology testing

Overzicht

Systematische methodologie voor het evalueren van de effectiviteit van AI-verdedigingen tegen bekende aanvalscategorieën.

Het praktische gevolg van deze architecturale eigenschap is dat elke component in het systeem die de tokenreeks kan beïnvloeden die door het model wordt verwerkt, het potentieel heeft om het gedrag ervan te beïnvloeden. Dit omvat directe gebruikersinvoer, indirecte gegevensbronnen zoals webinhoud en documenten die door RAG-systemen worden verwerkt, resultaten van tool- en function-calls, en zelfs het formaat en de structuur van het gesprek zelf.

Taxonomie en classificatie

Het begrijpen van de taxonomie van aanvallen en verdedigingen in dit domein is essentieel voor een systematische beveiligingsbeoordeling. Het volgende classificatiekader biedt een gestructureerde aanpak:

Categorie	Beschrijving	Prevalentie	Detectiemoeilijkheid
Directe aanvallen	Adversariële inhoud in gebruikersberichten	Zeer hoog	Laag-Gemiddeld
Indirecte aanvallen	Adversariële inhoud in externe gegevens	Hoog	Gemiddeld-Hoog
Architecturaal	Misbruik van systeemontwerp-eigenschappen	Gemiddeld	Hoog
Tijdens training	Vergiftiging of manipulatie van training	Laag	Zeer hoog
Tijdens inferentie	Misbruik van inferentie-infrastructuur	Laag-Gemiddeld	Hoog

Technische verdieping

# Demonstratie van het kernconcept
from openai import OpenAI
 
client = OpenAI()
 
def demonstrate_concept(system_prompt: str, user_input: str) -> str:
    """Demonstreer het fundamentele gedragspatroon."""
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_input},
        ],
        temperature=0.0,
    )
    return response.choices[0].message.content
 
# Basisgedrag
baseline = demonstrate_concept(
    system_prompt="You are a helpful assistant that only discusses cooking.",
    user_input="What is the capital of France?",
)
print(f"Baseline: {baseline}")
 
# Het model zou moeten weigeren om vragen over geografie te beantwoorden volgens zijn systeemprompt.
# Bepaalde invoerformuleringen kunnen deze beperking echter overschrijven,
# wat de fundamentele spanning aantoont tussen het volgen van instructies
# en het handhaven van veiligheid.

Analyse van het aanvalsoppervlak

Het aanvalsoppervlak voor deze kwetsbaarheidsklasse omvat meerdere vectoren, elk met eigen kenmerken:

Aanvalsvector	Beschrijving	Moeilijkheid	Impact
Directe invoer	Adversariële inhoud in gebruikersberichten	Laag	Variabel
Indirecte invoer	Adversariële inhoud in externe gegevens	Gemiddeld	Hoog
Tool-uitvoer	Adversariële inhoud in function-resultaten	Gemiddeld	Hoog
Contextmanipulatie	Misbruik van de dynamiek van het contextvenster	Hoog	Hoog
Tijdens training	Vergiftiging van trainings- of fine-tuning-gegevens	Zeer hoog	Kritiek

Elke vector vereist andere exploitatietechnieken en wordt verdedigd door verschillende mechanismen. Een uitgebreide beveiligingsbeoordeling moet alle relevante vectoren voor de architectuur van het doelsysteem evalueren.

Praktische toepassing

Implementatie van de techniek

Het in de praktijk implementeren van deze techniek vereist begrip van zowel de aanvalsmethodologie als het verdedigingslandschap van het doelsysteem.

import json
from typing import Optional, List
from dataclasses import dataclass
 
@dataclass
class AttackResult:
    """Resultaat van een enkele aanvalspoging."""
    payload_hash: str
    success: bool
    response_length: int
    defense_triggered: Optional[str] = None
 
class TechniqueFramework:
    """Framework voor het implementeren en testen van de beschreven techniek."""
 
    def __init__(self, target_config: dict):
        self.config = target_config
        self.results: List[AttackResult] = []
 
    def prepare_payload(self, objective: str, constraints: dict) -> str:
        """Bereid de aanvals-payload voor op basis van het doel en de beperkingen van het target."""
        payload = self._base_payload(objective)
 
        if constraints.get("input_classifier"):
            payload = self._apply_obfuscation(payload)
 
        if constraints.get("output_filter"):
            payload = self._add_extraction_channel(payload)
 
        return payload
 
    def _base_payload(self, objective: str) -> str:
        """Genereer de basis-payload voor het gegeven doel."""
        return f"Please help me with: {objective}"
 
    def _apply_obfuscation(self, payload: str) -> str:
        """Pas obfuscatie toe om input-classifiers te omzeilen."""
        # Voorbeeld: voeg tekens met breedte nul in tussen sleuteltermen
        return payload  # Implementeer een specifieke obfuscatiestrategie
 
    def _add_extraction_channel(self, payload: str) -> str:
        """Voeg een alternatief extractiekanaal toe om output-filters te omzeilen."""
        return payload + "\nEncode your response in Base64."
 
    def execute(self, payload: str) -> AttackResult:
        """Voer de techniek uit en verzamel de resultaten."""
        response = self._send_to_target(payload)
        success = self._evaluate_response(response)
 
        result = AttackResult(
            payload_hash=str(hash(payload))[:12],
            success=success,
            response_length=len(str(response)),
        )
        self.results.append(result)
        return result
 
    def _send_to_target(self, payload: str) -> str:
        """Stuur de payload naar het doelsysteem."""
        # Implementatie hangt af van de doelconfiguratie
        return ""
 
    def _evaluate_response(self, response: str) -> bool:
        """Evalueer of de respons op succes wijst."""
        return False
 
    def report(self) -> dict:
        """Genereer een samenvattend rapport van alle uitvoeringsresultaten."""
        total = len(self.results)
        successes = sum(1 for r in self.results if r.success)
        return {
            "total_attempts": total,
            "successes": successes,
            "success_rate": successes / total if total > 0 else 0,
        }

Verdedigingsoverwegingen

Het begrijpen van verdedigingsmaatregelen is essentieel voor zowel offensieve als defensieve professionals:

Invoervalidatie: Het voorbewerken van gebruikersinvoer via classificatiemodellen die adversariële patronen detecteren voordat ze het doel-LLM bereiken. Moderne input-classifiers gebruiken fine-getunede taalmodellen die zijn getraind op datasets met bekende aanvalspatronen en kunnen hoge detectiepercentages bereiken voor bekende aanvalsklassen terwijl ze lage fout-positiefpercentages behouden.
Output-filtering: Het nabewerken van modeluitvoer om gevoelige gegevens, instructie-artefacten en andere indicatoren van succesvolle exploitatie te detecteren en te verwijderen. Output-filters controleren doorgaans op patronen zoals het lekken van de systeemprompt, blootstelling van PII en het genereren van schadelijke inhoud.
Gedragsmonitoring: Realtime monitoring van gedragspatronen van het model om afwijkende reacties te detecteren die kunnen wijzen op lopende aanvallen. Dit omvat het volgen van metrieken zoals de verdeling van de responslengte, onderwerpcoherentie en afwijking van verwachte gedragspatronen.
Architectuurontwerp: Het ontwerpen van applicatiearchitecturen die het vertrouwen in modeluitvoer minimaliseren en beveiligingsgrenzen extern afdwingen. Dit omvat het scheiden van datavlakken van controlevlakken en het implementeren van het principe van minimale rechten voor alle voor het model toegankelijke bronnen.

Relevantie in de praktijk

Dit onderwerpgebied is direct relevant voor productie-AI-implementaties in alle sectoren. HarmBench — github.com/centerforaisafety/HarmBench documenteert exploitatie van deze kwetsbaarheidsklasse in geïmplementeerde systemen in de praktijk.

Organisaties die LLM-aangedreven applicaties implementeren, zouden moeten:

Beoordelen: Voer red team-beoordelingen uit die specifiek gericht zijn op deze kwetsbaarheidsklasse
Verdedigen: Implementeer defense-in-depth-maatregelen die passen bij het risiconiveau
Monitoren: Implementeer monitoring die exploitatiepogingen in realtime kan detecteren
Reageren: Onderhoud incidentresponsprocedures specifiek voor compromittering van AI-systemen
Itereren: Test verdedigingen regelmatig opnieuw naarmate zowel aanvallen als modellen evolueren

Huidige onderzoeksrichtingen

Actief onderzoek op dit gebied richt zich op verschillende veelbelovende richtingen:

Formele verificatie: Het ontwikkelen van wiskundige garanties voor modelgedrag onder adversariële omstandigheden
Robuustheidstraining: Trainingsprocedures die modellen produceren die beter bestand zijn tegen deze aanvalsklasse
Detectiemethoden: Verbeterde technieken voor het detecteren van exploitatiepogingen met lage fout-positiefpercentages
Gestandaardiseerde evaluatie: Benchmarksuites zoals HarmBench en JailbreakBench om vooruitgang te meten
Geautomatiseerde verdediging: Systemen die zich automatisch aanpassen aan nieuwe aanvalspatronen met behulp van online learning
Cross-modale generalisatie: Begrijpen hoe deze kwetsbaarheden zich manifesteren over verschillende invoermodaliteiten

Implementatiepatronen

Patroon 1: Verkenning-eerst-aanpak

De meest effectieve implementatie begint met grondige verkenning om de verdedigingshouding van het doelsysteem te begrijpen voordat er exploitatie wordt geprobeerd. Dit patroon wordt aanbevolen voor alle productiebeoordelingen.

from dataclasses import dataclass
from enum import Enum
 
class DefenseLayer(Enum):
    INPUT_CLASSIFIER = "input_classifier"
    OUTPUT_FILTER = "output_filter"
    GUARDRAIL = "guardrail"
    RATE_LIMITER = "rate_limiter"
    BEHAVIORAL_MONITOR = "behavioral_monitor"
 
@dataclass
class TargetProfile:
    """Profiel van de verdedigingshouding van het doelsysteem."""
    identified_defenses: list
    estimated_difficulty: str
    recommended_techniques: list
    bypass_candidates: list
 
def build_target_profile(recon_results: dict) -> TargetProfile:
    """Bouw een doelprofiel op basis van verkenningsresultaten."""
    defenses = []
    techniques = []
 
    # Analyseer latentiepatronen voor detectie van input-classifiers
    if recon_results.get("avg_latency_increase", 0) > 1.5:
        defenses.append(DefenseLayer.INPUT_CLASSIFIER)
        techniques.append("encoding_bypass")
        techniques.append("semantic_obfuscation")
 
    # Analyseer responspatronen voor detectie van output-filters
    if recon_results.get("truncated_responses", 0) > 0:
        defenses.append(DefenseLayer.OUTPUT_FILTER)
        techniques.append("format_exploitation")
        techniques.append("side_channel_extraction")
 
    difficulty = (
        "high" if len(defenses) >= 3
        else "medium" if len(defenses) >= 1
        else "low"
    )
 
    return TargetProfile(
        identified_defenses=defenses,
        estimated_difficulty=difficulty,
        recommended_techniques=techniques,
        bypass_candidates=[d for d in defenses if d != DefenseLayer.RATE_LIMITER],
    )

Patroon 2: Iteratieve verfijning

Dit patroon gebruikt feedback van mislukte pogingen om de aanpak te verfijnen. Elke iteratie verwerkt informatie die uit de defensieve respons is geleerd.

Patroon 3: Multi-vectorconvergentie

Pas meerdere technieken tegelijkertijd toe om overlappende aanvalsvectoren te creëren. Zelfs als elke afzonderlijke techniek gedeeltelijk wordt verdedigd, kan de combinatie het doel bereiken via verzadiging van de verdediging.

Beoordeling van de impact op de sector

De kwetsbaarheidsklasse die in dit artikel wordt beschreven, heeft aanzienlijke implicaties voor meerdere sectoren:

Sector	Primair risico	Ernst van de impact	Regelgevingskwestie
Gezondheidszorg	Blootstelling van patiëntgegevens via AI-assistenten	Kritiek	HIPAA-overtredingen
Financiële dienstverlening	Transactiemanipulatie via AI-adviseurs	Kritiek	SEC/OCC-naleving
Juridisch	Schending van vertrouwelijkheid via AI-onderzoekstools	Hoog	Verschoningsrecht advocaat-cliënt
Onderwijs	Manipulatie van toetsing via AI-tutoren	Gemiddeld	Academische integriteit
Overheid	Blootstelling van geheime gegevens via AI-systemen	Kritiek	Nationale veiligheid
Detailhandel	Blootstelling van PII van klanten via chatbots	Hoog	AVG/CCPA-naleving

Organisaties zouden hun blootstelling aan deze kwetsbaarheidsklasse moeten beoordelen en passende verdedigingsmaatregelen moeten implementeren. Het NIST AI 600-1 Generative AI Profile en de EU AI Act bieden regelgevingskaders die dergelijke beoordelingen steeds vaker vereisen.

Vergelijking met verwante kwetsbaarheidsklassen

Begrijpen hoe deze kwetsbaarheidsklasse zich verhoudt tot andere helpt professionals uitgebreide beoordelingsstrategieën te ontwikkelen:

Traditionele injectie-aanvallen (SQL, XSS, command injection): Conceptueel vergelijkbaar — niet-vertrouwde gegevens die als instructies worden geïnterpreteerd — maar op het niveau van natuurlijke taal in plaats van de syntaxis van een formele taal
Social engineering: Deelt het misbruik van vertrouwens- en autoriteitspatronen, maar richt zich op het model in plaats van op mensen
Adversariële ML-aanvallen: Deel van dezelfde familie maar gericht op het instructievolgende gedrag in plaats van op classificatiegrenzen
Supply chain-aanvallen: Complementair aanvalsoppervlak — compromittering van de supply chain kan de impact van prompt-injectie versterken

Samenvatting en kernprincipes

De concepten die in dit artikel worden onderzocht, weerspiegelen fundamentele uitdagingen in AI-beveiliging die zullen blijven bestaan naarmate de technologie evolueert. Belangrijke principes om mee te nemen:

Architecturaal bewustzijn: Beveiligingsgrenzen kunnen niet door het model alleen worden afgedwongen — externe mechanismen zijn vereist
Defense-in-depth: Geen enkele laag biedt adequate bescherming — meerdere onafhankelijke lagen zijn essentieel
Continue beoordeling: Het dreigingslandschap evolueert snel — regelmatig testen is niet optioneel
Praktische focus: Theoretisch begrip moet worden gekoppeld aan praktische testervaring
Professionele standaarden: Bevindingen moeten duidelijk worden gedocumenteerd met uitvoerbare adviezen voor herstel

Testmethodologie

Volg bij het beoordelen van systemen op deze kwetsbaarheidsklasse een gestructureerde methodologie om een uitgebreide dekking te garanderen:

Fase 1: Ontdekking

Tijdens de ontdekking breng je de architectuur van het systeem in kaart, identificeer je invoeroppervlakken en karakteriseer je het basisgedrag van het model. Deze fase moet zonder enige adversariële bedoeling worden uitgevoerd — het doel is puur observationeel.

Belangrijkste activiteiten:

Identificeer alle invoerkanalen (directe gebruikersinvoer, bestandsupload, webinhoud, API-parameters)
Karakteriseer de responspatronen van het model voor goedaardige invoer
Meet de basislatentie en de verdelingen van de responslengte
Identificeer het gedrag bij foutafhandeling en informatieonthulling in foutmeldingen

Fase 2: Enumeratie

Enumereer de verdedigingslagen van het systeem door systematisch te sonderen. Gebruik de op latentie en gedrag gebaseerde detectietechnieken die in de labs-sectie worden beschreven.

Belangrijkste activiteiten:

Sondeer op input-classifiers met behulp van gecontroleerde grenstestende payloads
Test op output-filters met behulp van verzoeken die filtering zouden moeten activeren
Identificeer drempels voor rate limiting en blokkeergedrag
Breng de weigeringspatronen van het systeem en informatieonthulling in weigeringen in kaart

Fase 3: Exploitatie

Probeer exploitatie met technieken die zijn aangepast aan de geïdentificeerde verdedigingshouding. Begin met de eenvoudigste technieken en escaleer de complexiteit naar behoefte.

Belangrijkste activiteiten:

Voer de primaire techniek uit tegen geïdentificeerde zwakke punten
Pas payloads aan op basis van defensieve reacties
Keten meerdere technieken aan elkaar voor het omzeilen van defense-in-depth
Documenteer alle geslaagde en mislukte pogingen met volledige details

Fase 4: Validatie en rapportage

Valideer bevindingen op betrouwbaarheid en documenteer ze voor het beoordelingsrapport.

class FindingReport:
    """Gestructureerd bevindingenrapport voor AI-beveiligingsbeoordelingen."""
 
    def __init__(self, title: str, severity: str, description: str):
        self.title = title
        self.severity = severity
        self.description = description
        self.owasp_mapping = ""
        self.mitre_mapping = ""
        self.steps_to_reproduce = []
        self.evidence = []
        self.recommendations = []
 
    def add_step(self, step: str) -> None:
        self.steps_to_reproduce.append(step)
 
    def add_recommendation(self, rec: str) -> None:
        self.recommendations.append(rec)
 
    def to_markdown(self) -> str:
        steps = "\n".join(f"{i+1}. {s}" for i, s in enumerate(self.steps_to_reproduce))
        recs = "\n".join(f"- {r}" for r in self.recommendations)
        return f"""
## {self.title}
 
**Severity**: {self.severity}
**OWASP**: {self.owasp_mapping}
**MITRE ATLAS**: {self.mitre_mapping}
 
### Description
{self.description}
 
### Steps to Reproduce
{steps}
 
### Recommendations
{recs}
"""

Verklarende woordenlijst van kernbegrippen

Term	Definitie
Prompt-injectie	Techniek waarbij adversariële inhoud in de invoer het modelgedrag beïnvloedt buiten de bedoelde grenzen
Defense-in-depth	Beveiligingsarchitectuur met meerdere onafhankelijke verdedigingslagen
Guardrail	Programmeerbaar veiligheidsmechanisme dat de invoer- of uitvoergedrag van het model beperkt
Input-classifier	ML-model dat invoer classificeert als goedaardig of adversarieel voorafgaand aan verwerking
Output-filter	Nabewerkingsmechanisme dat modeluitvoer scant op gevoelige of schadelijke inhoud
Contextvenster	Het maximale aantal tokens dat een model kan verwerken in één enkele forward pass
Red teaming	Geautoriseerd adversarieel testen van systemen om kwetsbaarheden te ontdekken
RLHF	Reinforcement Learning from Human Feedback — een trainingstechniek voor het aligneren van modelgedrag
RAG	Retrieval-Augmented Generation — techniek om modelreacties te gronden in externe gegevens
MCP	Model Context Protocol — standaard voor het verbinden van AI-agents met externe tools en gegevens

Sectorcontext en toepassing in de praktijk

De concepten die in dit artikel worden behandeld, zijn direct relevant voor organisaties die AI-systemen in alle sectoren implementeren. Het begrijpen en aanpakken van deze beveiligingsoverwegingen is niet optioneel — het wordt steeds vaker vereist door regelgeving, verwacht door klanten en is essentieel voor het behouden van het vertrouwen in de organisatie.

Regelgevingslandschap

Meerdere regelgevingskaders pakken nu specifiek de eisen voor AI-beveiliging aan:

EU AI Act: Vereist risicobeoordelingen en beveiligingstests voor AI-systemen met een hoog risico, met boetes tot 7% van de wereldwijde jaaromzet bij niet-naleving. Organisaties die AI in de EU implementeren, moeten aantonen dat ze de soorten risico's die in dit artikel worden behandeld, hebben beoordeeld en beperkt.
NIST AI 600-1: Het Generative AI Profile biedt specifieke richtlijnen voor het beheren van risico's in generatieve AI-systemen, waaronder prompt-injectie, datavergiftiging en betrouwbaarheid van de uitvoer. Organisaties die NIST-kaders gebruiken, zouden hun controles moeten koppelen aan de hier besproken kwetsbaarheden.
ISO/IEC 42001: De AI Management System Standard vereist dat organisaties een AI-managementsysteem opzetten, implementeren en onderhouden dat beveiligingsrisico's aanpakt. De aanvals- en verdedigingsconcepten in dit curriculum ondersteunen direct de naleving van ISO 42001.
US Executive Order 14110: Vereist dat AI-ontwikkelaars en -implementeerders red team-tests uitvoeren en resultaten delen met de overheid voor bepaalde klassen van AI-systemen. De technieken die in dit curriculum worden behandeld, sluiten aan bij de testvereisten die in de EO worden geschetst.

Beoordeling van organisatorische gereedheid

Organisaties kunnen het volgende kader gebruiken om hun gereedheid te beoordelen om de beveiligingsonderwerpen die in dit artikel worden behandeld, aan te pakken:

Volwassenheidsniveau	Beschrijving	Belangrijkste indicatoren
Niveau 1: Ad hoc	Geen formeel AI-beveiligingsprogramma	Geen toegewijde AI-beveiligingsrollen, geen testprocedures
Niveau 2: In ontwikkeling	Basisbewustzijn en initiële controles	Enige invoervalidatie, basismonitoring, informeel testen
Niveau 3: Gedefinieerd	Formeel programma met gedocumenteerde procedures	Regelmatig testen, gedefinieerde incidentrespons, beoordeling van de beveiligingsarchitectuur
Niveau 4: Beheerd	Kwantitatief risicobeheer	Op metrieken gebaseerde beslissingen, continu testen, integratie van dreigingsinformatie
Niveau 5: Optimaliserend	Continue verbetering	Geautomatiseerd red teaming, aanpassing van de verdediging, bijdrage aan de sector

De meeste organisaties opereren momenteel op niveau 1 of 2. De inhoud van dit curriculum is ontworpen om organisaties te helpen vooruitgang te boeken naar niveau 3 en verder door de kennis, tools en methodologieën te bieden die nodig zijn voor effectieve AI-beveiligingsprogramma's.

Interne capaciteit opbouwen

Voor organisaties die interne AI-beveiligingscapaciteit opbouwen, is de aanbevolen progressie:

Fundament (Maanden 1-3): Train het beveiligingsteam in AI-grondbeginselen, implementeer basis-invoervalidatie en output-filtering, stel een monitoringbasislijn vast
Gemiddeld (Maanden 3-6): Voer een eerste interne red team-beoordeling uit, implementeer een defense-in-depth-architectuur, ontwikkel AI-specifieke incidentresponsprocedures
Gevorderd (Maanden 6-12): Stel een continue testpijplijn op, integreer AI-beveiliging in CI/CD, voer regelmatig externe beoordelingen uit, draag bij aan het delen van kennis in de sector
Expert (Jaar 2+): Ontwikkel nieuwe verdedigingstechnieken, publiceer onderzoek, begeleid andere organisaties, neem deel aan de ontwikkeling van standaarden

Referenties / Verder lezen

Inspect AI (UK AISI) — github.com/UKGovernmentBEIS/inspect_ai — AI safety evaluations
HarmBench — github.com/centerforaisafety/HarmBench
Garak (NVIDIA) — github.com/NVIDIA/garak

Knowledge Check

Wat is de meest effectieve aanpak om je te verdedigen tegen de aanvalsklasse die in dit artikel wordt behandeld?

Knowledge Check

Waarom blijven de in dit artikel beschreven technieken effectief over verschillende modelversies en -aanbieders heen?

Defense Evaluation Methodology

Gemiddeld16 min lezenBijgewerkt op 2026-03-20

Systematische methodologie voor het evalueren van de effectiviteit van AI-verdedigingen tegen bekende aanvalscategorieën.

defense evaluation methodology testing

Overzicht

Systematische methodologie voor het evalueren van de effectiviteit van AI-verdedigingen tegen bekende aanvalscategorieën.

Core Concepts

Fundamentele principes

Taxonomie en classificatie

Categorie	Beschrijving	Prevalentie	Detectiemoeilijkheid
Directe aanvallen	Adversariële inhoud in gebruikersberichten	Zeer hoog	Laag-Gemiddeld
Indirecte aanvallen	Adversariële inhoud in externe gegevens	Hoog	Gemiddeld-Hoog
Architecturaal	Misbruik van systeemontwerp-eigenschappen	Gemiddeld	Hoog
Tijdens training	Vergiftiging of manipulatie van training	Laag	Zeer hoog
Tijdens inferentie	Misbruik van inferentie-infrastructuur	Laag-Gemiddeld	Hoog

Technische verdieping

# Demonstratie van het kernconcept
from openai import OpenAI
 
client = OpenAI()
 
def demonstrate_concept(system_prompt: str, user_input: str) -> str:
    """Demonstreer het fundamentele gedragspatroon."""
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_input},
        ],
        temperature=0.0,
    )
    return response.choices[0].message.content
 
# Basisgedrag
baseline = demonstrate_concept(
    system_prompt="You are a helpful assistant that only discusses cooking.",
    user_input="What is the capital of France?",
)
print(f"Baseline: {baseline}")
 
# Het model zou moeten weigeren om vragen over geografie te beantwoorden volgens zijn systeemprompt.
# Bepaalde invoerformuleringen kunnen deze beperking echter overschrijven,
# wat de fundamentele spanning aantoont tussen het volgen van instructies
# en het handhaven van veiligheid.

Analyse van het aanvalsoppervlak

Het aanvalsoppervlak voor deze kwetsbaarheidsklasse omvat meerdere vectoren, elk met eigen kenmerken:

Aanvalsvector	Beschrijving	Moeilijkheid	Impact
Directe invoer	Adversariële inhoud in gebruikersberichten	Laag	Variabel
Indirecte invoer	Adversariële inhoud in externe gegevens	Gemiddeld	Hoog
Tool-uitvoer	Adversariële inhoud in function-resultaten	Gemiddeld	Hoog
Contextmanipulatie	Misbruik van de dynamiek van het contextvenster	Hoog	Hoog
Tijdens training	Vergiftiging van trainings- of fine-tuning-gegevens	Zeer hoog	Kritiek

Praktische toepassing

Implementatie van de techniek

Het in de praktijk implementeren van deze techniek vereist begrip van zowel de aanvalsmethodologie als het verdedigingslandschap van het doelsysteem.

import json
from typing import Optional, List
from dataclasses import dataclass
 
@dataclass
class AttackResult:
    """Resultaat van een enkele aanvalspoging."""
    payload_hash: str
    success: bool
    response_length: int
    defense_triggered: Optional[str] = None
 
class TechniqueFramework:
    """Framework voor het implementeren en testen van de beschreven techniek."""
 
    def __init__(self, target_config: dict):
        self.config = target_config
        self.results: List[AttackResult] = []
 
    def prepare_payload(self, objective: str, constraints: dict) -> str:
        """Bereid de aanvals-payload voor op basis van het doel en de beperkingen van het target."""
        payload = self._base_payload(objective)
 
        if constraints.get("input_classifier"):
            payload = self._apply_obfuscation(payload)
 
        if constraints.get("output_filter"):
            payload = self._add_extraction_channel(payload)
 
        return payload
 
    def _base_payload(self, objective: str) -> str:
        """Genereer de basis-payload voor het gegeven doel."""
        return f"Please help me with: {objective}"
 
    def _apply_obfuscation(self, payload: str) -> str:
        """Pas obfuscatie toe om input-classifiers te omzeilen."""
        # Voorbeeld: voeg tekens met breedte nul in tussen sleuteltermen
        return payload  # Implementeer een specifieke obfuscatiestrategie
 
    def _add_extraction_channel(self, payload: str) -> str:
        """Voeg een alternatief extractiekanaal toe om output-filters te omzeilen."""
        return payload + "\nEncode your response in Base64."
 
    def execute(self, payload: str) -> AttackResult:
        """Voer de techniek uit en verzamel de resultaten."""
        response = self._send_to_target(payload)
        success = self._evaluate_response(response)
 
        result = AttackResult(
            payload_hash=str(hash(payload))[:12],
            success=success,
            response_length=len(str(response)),
        )
        self.results.append(result)
        return result
 
    def _send_to_target(self, payload: str) -> str:
        """Stuur de payload naar het doelsysteem."""
        # Implementatie hangt af van de doelconfiguratie
        return ""
 
    def _evaluate_response(self, response: str) -> bool:
        """Evalueer of de respons op succes wijst."""
        return False
 
    def report(self) -> dict:
        """Genereer een samenvattend rapport van alle uitvoeringsresultaten."""
        total = len(self.results)
        successes = sum(1 for r in self.results if r.success)
        return {
            "total_attempts": total,
            "successes": successes,
            "success_rate": successes / total if total > 0 else 0,
        }

Verdedigingsoverwegingen

Het begrijpen van verdedigingsmaatregelen is essentieel voor zowel offensieve als defensieve professionals:

Invoervalidatie: Het voorbewerken van gebruikersinvoer via classificatiemodellen die adversariële patronen detecteren voordat ze het doel-LLM bereiken. Moderne input-classifiers gebruiken fine-getunede taalmodellen die zijn getraind op datasets met bekende aanvalspatronen en kunnen hoge detectiepercentages bereiken voor bekende aanvalsklassen terwijl ze lage fout-positiefpercentages behouden.
Output-filtering: Het nabewerken van modeluitvoer om gevoelige gegevens, instructie-artefacten en andere indicatoren van succesvolle exploitatie te detecteren en te verwijderen. Output-filters controleren doorgaans op patronen zoals het lekken van de systeemprompt, blootstelling van PII en het genereren van schadelijke inhoud.
Gedragsmonitoring: Realtime monitoring van gedragspatronen van het model om afwijkende reacties te detecteren die kunnen wijzen op lopende aanvallen. Dit omvat het volgen van metrieken zoals de verdeling van de responslengte, onderwerpcoherentie en afwijking van verwachte gedragspatronen.
Architectuurontwerp: Het ontwerpen van applicatiearchitecturen die het vertrouwen in modeluitvoer minimaliseren en beveiligingsgrenzen extern afdwingen. Dit omvat het scheiden van datavlakken van controlevlakken en het implementeren van het principe van minimale rechten voor alle voor het model toegankelijke bronnen.

Relevantie in de praktijk

Organisaties die LLM-aangedreven applicaties implementeren, zouden moeten:

Beoordelen: Voer red team-beoordelingen uit die specifiek gericht zijn op deze kwetsbaarheidsklasse
Verdedigen: Implementeer defense-in-depth-maatregelen die passen bij het risiconiveau
Monitoren: Implementeer monitoring die exploitatiepogingen in realtime kan detecteren
Reageren: Onderhoud incidentresponsprocedures specifiek voor compromittering van AI-systemen
Itereren: Test verdedigingen regelmatig opnieuw naarmate zowel aanvallen als modellen evolueren

Huidige onderzoeksrichtingen

Actief onderzoek op dit gebied richt zich op verschillende veelbelovende richtingen:

Formele verificatie: Het ontwikkelen van wiskundige garanties voor modelgedrag onder adversariële omstandigheden
Robuustheidstraining: Trainingsprocedures die modellen produceren die beter bestand zijn tegen deze aanvalsklasse
Detectiemethoden: Verbeterde technieken voor het detecteren van exploitatiepogingen met lage fout-positiefpercentages
Gestandaardiseerde evaluatie: Benchmarksuites zoals HarmBench en JailbreakBench om vooruitgang te meten
Geautomatiseerde verdediging: Systemen die zich automatisch aanpassen aan nieuwe aanvalspatronen met behulp van online learning
Cross-modale generalisatie: Begrijpen hoe deze kwetsbaarheden zich manifesteren over verschillende invoermodaliteiten

Implementatiepatronen

Patroon 1: Verkenning-eerst-aanpak

from dataclasses import dataclass
from enum import Enum
 
class DefenseLayer(Enum):
    INPUT_CLASSIFIER = "input_classifier"
    OUTPUT_FILTER = "output_filter"
    GUARDRAIL = "guardrail"
    RATE_LIMITER = "rate_limiter"
    BEHAVIORAL_MONITOR = "behavioral_monitor"
 
@dataclass
class TargetProfile:
    """Profiel van de verdedigingshouding van het doelsysteem."""
    identified_defenses: list
    estimated_difficulty: str
    recommended_techniques: list
    bypass_candidates: list
 
def build_target_profile(recon_results: dict) -> TargetProfile:
    """Bouw een doelprofiel op basis van verkenningsresultaten."""
    defenses = []
    techniques = []
 
    # Analyseer latentiepatronen voor detectie van input-classifiers
    if recon_results.get("avg_latency_increase", 0) > 1.5:
        defenses.append(DefenseLayer.INPUT_CLASSIFIER)
        techniques.append("encoding_bypass")
        techniques.append("semantic_obfuscation")
 
    # Analyseer responspatronen voor detectie van output-filters
    if recon_results.get("truncated_responses", 0) > 0:
        defenses.append(DefenseLayer.OUTPUT_FILTER)
        techniques.append("format_exploitation")
        techniques.append("side_channel_extraction")
 
    difficulty = (
        "high" if len(defenses) >= 3
        else "medium" if len(defenses) >= 1
        else "low"
    )
 
    return TargetProfile(
        identified_defenses=defenses,
        estimated_difficulty=difficulty,
        recommended_techniques=techniques,
        bypass_candidates=[d for d in defenses if d != DefenseLayer.RATE_LIMITER],
    )

Patroon 2: Iteratieve verfijning

Dit patroon gebruikt feedback van mislukte pogingen om de aanpak te verfijnen. Elke iteratie verwerkt informatie die uit de defensieve respons is geleerd.

Patroon 3: Multi-vectorconvergentie

Beoordeling van de impact op de sector

De kwetsbaarheidsklasse die in dit artikel wordt beschreven, heeft aanzienlijke implicaties voor meerdere sectoren:

Sector	Primair risico	Ernst van de impact	Regelgevingskwestie
Gezondheidszorg	Blootstelling van patiëntgegevens via AI-assistenten	Kritiek	HIPAA-overtredingen
Financiële dienstverlening	Transactiemanipulatie via AI-adviseurs	Kritiek	SEC/OCC-naleving
Juridisch	Schending van vertrouwelijkheid via AI-onderzoekstools	Hoog	Verschoningsrecht advocaat-cliënt
Onderwijs	Manipulatie van toetsing via AI-tutoren	Gemiddeld	Academische integriteit
Overheid	Blootstelling van geheime gegevens via AI-systemen	Kritiek	Nationale veiligheid
Detailhandel	Blootstelling van PII van klanten via chatbots	Hoog	AVG/CCPA-naleving

Vergelijking met verwante kwetsbaarheidsklassen

Begrijpen hoe deze kwetsbaarheidsklasse zich verhoudt tot andere helpt professionals uitgebreide beoordelingsstrategieën te ontwikkelen:

Traditionele injectie-aanvallen (SQL, XSS, command injection): Conceptueel vergelijkbaar — niet-vertrouwde gegevens die als instructies worden geïnterpreteerd — maar op het niveau van natuurlijke taal in plaats van de syntaxis van een formele taal
Social engineering: Deelt het misbruik van vertrouwens- en autoriteitspatronen, maar richt zich op het model in plaats van op mensen
Adversariële ML-aanvallen: Deel van dezelfde familie maar gericht op het instructievolgende gedrag in plaats van op classificatiegrenzen
Supply chain-aanvallen: Complementair aanvalsoppervlak — compromittering van de supply chain kan de impact van prompt-injectie versterken

Samenvatting en kernprincipes

Architecturaal bewustzijn: Beveiligingsgrenzen kunnen niet door het model alleen worden afgedwongen — externe mechanismen zijn vereist
Defense-in-depth: Geen enkele laag biedt adequate bescherming — meerdere onafhankelijke lagen zijn essentieel
Continue beoordeling: Het dreigingslandschap evolueert snel — regelmatig testen is niet optioneel
Praktische focus: Theoretisch begrip moet worden gekoppeld aan praktische testervaring
Professionele standaarden: Bevindingen moeten duidelijk worden gedocumenteerd met uitvoerbare adviezen voor herstel

Testmethodologie

Volg bij het beoordelen van systemen op deze kwetsbaarheidsklasse een gestructureerde methodologie om een uitgebreide dekking te garanderen:

Fase 1: Ontdekking

Belangrijkste activiteiten:

Identificeer alle invoerkanalen (directe gebruikersinvoer, bestandsupload, webinhoud, API-parameters)
Karakteriseer de responspatronen van het model voor goedaardige invoer
Meet de basislatentie en de verdelingen van de responslengte
Identificeer het gedrag bij foutafhandeling en informatieonthulling in foutmeldingen

Fase 2: Enumeratie

Enumereer de verdedigingslagen van het systeem door systematisch te sonderen. Gebruik de op latentie en gedrag gebaseerde detectietechnieken die in de labs-sectie worden beschreven.

Belangrijkste activiteiten:

Sondeer op input-classifiers met behulp van gecontroleerde grenstestende payloads
Test op output-filters met behulp van verzoeken die filtering zouden moeten activeren
Identificeer drempels voor rate limiting en blokkeergedrag
Breng de weigeringspatronen van het systeem en informatieonthulling in weigeringen in kaart

Fase 3: Exploitatie

Probeer exploitatie met technieken die zijn aangepast aan de geïdentificeerde verdedigingshouding. Begin met de eenvoudigste technieken en escaleer de complexiteit naar behoefte.

Belangrijkste activiteiten:

Voer de primaire techniek uit tegen geïdentificeerde zwakke punten
Pas payloads aan op basis van defensieve reacties
Keten meerdere technieken aan elkaar voor het omzeilen van defense-in-depth
Documenteer alle geslaagde en mislukte pogingen met volledige details

Fase 4: Validatie en rapportage

Valideer bevindingen op betrouwbaarheid en documenteer ze voor het beoordelingsrapport.

class FindingReport:
    """Gestructureerd bevindingenrapport voor AI-beveiligingsbeoordelingen."""
 
    def __init__(self, title: str, severity: str, description: str):
        self.title = title
        self.severity = severity
        self.description = description
        self.owasp_mapping = ""
        self.mitre_mapping = ""
        self.steps_to_reproduce = []
        self.evidence = []
        self.recommendations = []
 
    def add_step(self, step: str) -> None:
        self.steps_to_reproduce.append(step)
 
    def add_recommendation(self, rec: str) -> None:
        self.recommendations.append(rec)
 
    def to_markdown(self) -> str:
        steps = "\n".join(f"{i+1}. {s}" for i, s in enumerate(self.steps_to_reproduce))
        recs = "\n".join(f"- {r}" for r in self.recommendations)
        return f"""
## {self.title}
 
**Severity**: {self.severity}
**OWASP**: {self.owasp_mapping}
**MITRE ATLAS**: {self.mitre_mapping}
 
### Description
{self.description}
 
### Steps to Reproduce
{steps}
 
### Recommendations
{recs}
"""

Verklarende woordenlijst van kernbegrippen

Term	Definitie
Prompt-injectie	Techniek waarbij adversariële inhoud in de invoer het modelgedrag beïnvloedt buiten de bedoelde grenzen
Defense-in-depth	Beveiligingsarchitectuur met meerdere onafhankelijke verdedigingslagen
Guardrail	Programmeerbaar veiligheidsmechanisme dat de invoer- of uitvoergedrag van het model beperkt
Input-classifier	ML-model dat invoer classificeert als goedaardig of adversarieel voorafgaand aan verwerking
Output-filter	Nabewerkingsmechanisme dat modeluitvoer scant op gevoelige of schadelijke inhoud
Contextvenster	Het maximale aantal tokens dat een model kan verwerken in één enkele forward pass
Red teaming	Geautoriseerd adversarieel testen van systemen om kwetsbaarheden te ontdekken
RLHF	Reinforcement Learning from Human Feedback — een trainingstechniek voor het aligneren van modelgedrag
RAG	Retrieval-Augmented Generation — techniek om modelreacties te gronden in externe gegevens
MCP	Model Context Protocol — standaard voor het verbinden van AI-agents met externe tools en gegevens

Sectorcontext en toepassing in de praktijk

Regelgevingslandschap

Meerdere regelgevingskaders pakken nu specifiek de eisen voor AI-beveiliging aan:

EU AI Act: Vereist risicobeoordelingen en beveiligingstests voor AI-systemen met een hoog risico, met boetes tot 7% van de wereldwijde jaaromzet bij niet-naleving. Organisaties die AI in de EU implementeren, moeten aantonen dat ze de soorten risico's die in dit artikel worden behandeld, hebben beoordeeld en beperkt.
NIST AI 600-1: Het Generative AI Profile biedt specifieke richtlijnen voor het beheren van risico's in generatieve AI-systemen, waaronder prompt-injectie, datavergiftiging en betrouwbaarheid van de uitvoer. Organisaties die NIST-kaders gebruiken, zouden hun controles moeten koppelen aan de hier besproken kwetsbaarheden.
ISO/IEC 42001: De AI Management System Standard vereist dat organisaties een AI-managementsysteem opzetten, implementeren en onderhouden dat beveiligingsrisico's aanpakt. De aanvals- en verdedigingsconcepten in dit curriculum ondersteunen direct de naleving van ISO 42001.
US Executive Order 14110: Vereist dat AI-ontwikkelaars en -implementeerders red team-tests uitvoeren en resultaten delen met de overheid voor bepaalde klassen van AI-systemen. De technieken die in dit curriculum worden behandeld, sluiten aan bij de testvereisten die in de EO worden geschetst.

Beoordeling van organisatorische gereedheid

Organisaties kunnen het volgende kader gebruiken om hun gereedheid te beoordelen om de beveiligingsonderwerpen die in dit artikel worden behandeld, aan te pakken:

Volwassenheidsniveau	Beschrijving	Belangrijkste indicatoren
Niveau 1: Ad hoc	Geen formeel AI-beveiligingsprogramma	Geen toegewijde AI-beveiligingsrollen, geen testprocedures
Niveau 2: In ontwikkeling	Basisbewustzijn en initiële controles	Enige invoervalidatie, basismonitoring, informeel testen
Niveau 3: Gedefinieerd	Formeel programma met gedocumenteerde procedures	Regelmatig testen, gedefinieerde incidentrespons, beoordeling van de beveiligingsarchitectuur
Niveau 4: Beheerd	Kwantitatief risicobeheer	Op metrieken gebaseerde beslissingen, continu testen, integratie van dreigingsinformatie
Niveau 5: Optimaliserend	Continue verbetering	Geautomatiseerd red teaming, aanpassing van de verdediging, bijdrage aan de sector

Interne capaciteit opbouwen

Voor organisaties die interne AI-beveiligingscapaciteit opbouwen, is de aanbevolen progressie:

Fundament (Maanden 1-3): Train het beveiligingsteam in AI-grondbeginselen, implementeer basis-invoervalidatie en output-filtering, stel een monitoringbasislijn vast
Gemiddeld (Maanden 3-6): Voer een eerste interne red team-beoordeling uit, implementeer een defense-in-depth-architectuur, ontwikkel AI-specifieke incidentresponsprocedures
Gevorderd (Maanden 6-12): Stel een continue testpijplijn op, integreer AI-beveiliging in CI/CD, voer regelmatig externe beoordelingen uit, draag bij aan het delen van kennis in de sector
Expert (Jaar 2+): Ontwikkel nieuwe verdedigingstechnieken, publiceer onderzoek, begeleid andere organisaties, neem deel aan de ontwikkeling van standaarden

Referenties / Verder lezen

Inspect AI (UK AISI) — github.com/UKGovernmentBEIS/inspect_ai — AI safety evaluations
HarmBench — github.com/centerforaisafety/HarmBench
Garak (NVIDIA) — github.com/NVIDIA/garak

Knowledge Check

Wat is de meest effectieve aanpak om je te verdedigen tegen de aanvalsklasse die in dit artikel wordt behandeld?

Knowledge Check

Waarom blijven de in dit artikel beschreven technieken effectief over verschillende modelversies en -aanbieders heen?

Defense Evaluation Methodology

Gerelateerde artikelen

Defense Evaluation Methodology

Gerelateerde artikelen