MITRE ATLAS Walkthrough
MITRE ATLAS-tactieken, -technieken en -procedures voor AI-systemen. Hoe je ATLAS gebruikt voor de planning van red-team-engagements en aanvallen aan ATLAS-ID's mapt.
MITRE ATLAS breidt het MITRE ATT&CK-framework uit naar het AI-domein. Waar ATT&CK tactieken en technieken tegen traditionele IT-systemen catalogiseert, catalogiseert ATLAS tactieken en technieken die specifiek gericht zijn op machine-learningsystemen. Voor AI-red teamers biedt ATLAS een gestructureerd vocabulaire voor het plannen van engagements, het mappen van aanvallen en het communiceren van bevindingen.
Structuur van de ATLAS-matrix
Tactieken (doelen van de aanvaller)
| Tactiek | ATLAS-ID | Beschrijving | ATT&CK-equivalent |
|---|---|---|---|
| Reconnaissance | AML.TA0000 | Informatie verzamelen over het doel-ML-systeem | TA0043 |
| Resource Development | AML.TA0001 | Tools en infrastructuur voorbereiden voor de aanval | TA0042 |
| Initial Access | AML.TA0002 | Toegang verkrijgen tot het ML-systeem | TA0001 |
| ML Model Access | AML.TA0003 | Toegang verkrijgen om met het model te interacteren of het te bevragen | AI-specifiek |
| Execution | AML.TA0004 | Adversarial technieken uitvoeren tegen het model | TA0002 |
| Persistence | AML.TA0005 | Toegang tot of invloed op het ML-systeem behouden | TA0003 |
| Defense Evasion | AML.TA0006 | Detectie van adversarial activiteit vermijden | TA0005 |
| Discovery | AML.TA0007 | De interne werking van het doel-ML-systeem begrijpen | TA0007 |
| Collection | AML.TA0008 | Data verzamelen uit het ML-systeem | TA0009 |
| ML Attack Staging | AML.TA0009 | De specifieke ML-aanvalscomponenten voorbereiden | AI-specifiek |
| Exfiltration | AML.TA0010 | Data of modellen uit het systeem extraheren | TA0010 |
| Impact | AML.TA0011 | Het ML-systeem verstoren of degraderen | TA0040 |
Belangrijke technieken voor AI-red teaming
Reconnaissance-technieken
| Techniek | ID | Beschrijving | Red-team-toepassing |
|---|---|---|---|
| Search for Victim's Data | AML.T0000 | Trainingsdatabronnen identificeren | Datavergiftiging- en extractie-aanvallen informeren |
| Search for ML-Relevant Info | AML.T0001 | Modelarchitectuur, framework en versie-informatie vinden | Het aanvalsoppervlak scopen |
| Active Scanning | AML.T0002 | De ML-API onderzoeken op modeldetails | Modelfamilie fingerprinten, veiligheidsfilters detecteren |
ML Model Access-technieken
| Techniek | ID | Beschrijving | Red-team-toepassing |
|---|---|---|---|
| ML-Enabled Product or Service | AML.T0003 | Toegang tot het model via de bedoelde interface | Standaard black-box-testtoegangspunt |
| Full Model Access | AML.T0004 | Volledige modelgewichten en -architectuur verkrijgen | Maakt white-box-aanvallen mogelijk (GCG, gradiëntgebaseerd) |
| Partial Model Access | AML.T0005 | Toegang tot embeddings, logits of tussentijdse outputs | Maakt gray-box-aanvallen mogelijk |
Aanvalstechnieken
| Techniek | ID | Beschrijving | Prioriteit |
|---|---|---|---|
| Prompt Injection | AML.T0051 | Model manipuleren via vervaardigde inputs | Kritiek |
| Adversarial Examples | AML.T0043 | Inputs ontworpen om misclassificatie te veroorzaken | Hoog |
| Data Poisoning | AML.T0020 | Trainings- of fine-tuningdata corrumperen | Hoog |
| Model Extraction | AML.T0024 | Het model stelen via querytoegang | Hoog |
| Model Inversion | AML.T0025 | Trainingsdata herstellen uit modeloutputs | Gemiddeld |
| Membership Inference | AML.T0026 | Bepalen of specifieke data in de trainingsset zat | Gemiddeld |
| Backdoor ML Model | AML.T0018 | Verborgen gedragingen invoegen via trainingsmanipulatie | Hoog |
ATLAS gebruiken voor engagementplanning
ATLAS biedt een gestructureerde aanpak voor het plannen van AI-red-team-engagements. Gebruik het om uitgebreide dekking te waarborgen en het aanvalsplan aan stakeholders te communiceren.
Map het doelsysteem aan ATLAS
Identificeer welke ATLAS-tactieken relevant zijn op basis van de architectuur van het doelsysteem. Een LLM-chatbot heeft een ander ATLAS-oppervlak dan een computervisiesysteem.
Selecteer technieken per tactiek
Identificeer voor elke relevante tactiek de specifieke technieken die je van plan bent te testen. Prioriteer op basis van het aanvalsoppervlak van het systeem en bekende kwetsbaarheden.
Definieer procedures voor elke techniek
Documenteer de specifieke tools, payloads en methoden die je voor elke techniek zult gebruiken. Dit wordt je testplan.
Map aan de rules of engagement
Vergelijk je techniekenlijst met de geautoriseerde scope. Markeer alle technieken die expliciete autorisatie vereisen of buiten de scope vallen.
Volg de dekking tijdens uitvoering
Gebruik de ATLAS-matrix als dekkingstracker tijdens het engagement. Markeer technieken als getest, niet getest of niet van toepassing.
Voorbeeld: engagementplan voor een LLM-chatbot
| Tactiek | Geselecteerde technieken | Prioriteit |
|---|---|---|
| Reconnaissance | AML.T0001 (Search for ML-Relevant Info), AML.T0002 (Active Scanning) | Vóór engagement |
| ML Model Access | AML.T0003 (ML-Enabled Product or Service) | Toegangspunt |
| Execution | AML.T0051 (Prompt Injection) | Kritiek |
| Discovery | Systeemprompt-extractie, opsomming van capaciteiten | Hoog |
| Collection | Probing van trainingsdata, PII-extractie | Hoog |
| Exfiltration | AML.T0024 (Model Extraction -- indien binnen scope) | Gemiddeld |
| Impact | Bypass van veiligheidsfilter, generatie van schadelijke content | Kritiek |
| Defense Evasion | Encodingtrucs, meertalige aanvallen | Hoog |
ATLAS vs. ATT&CK: wanneer welke te gebruiken
| Scenario | Gebruik ATLAS | Gebruik ATT&CK | Gebruik beide |
|---|---|---|---|
| Een LLM-chatbot testen | Primair framework | N.v.t. | Bij het testen van de onderliggende infrastructuur |
| AI-aangedreven malwaredetectie testen | Primair voor evasietesten | Voor payloadlevering | Volledig engagement |
| Autonome agents testen | Primair voor AI-specifieke aanvallen | Voor traditionele infrastructuuraanvallen | Altijd -- agents overbruggen AI en IT |
| Infrastructuurbeveiliging van een ML-platform | Ondersteunend framework | Primair framework | Gecombineerde dekking |
Voorbeeld van een gecombineerde ATLAS + ATT&CK kill chain
Bij het end-to-end testen van een AI-aangedreven applicatie wisselt het aanvalspad vaak tussen ATT&CK- (infrastructuur) en ATLAS-fasen (AI-specifiek):
Phase 1: Infrastructure Reconnaissance (ATT&CK)
TA0043 Reconnaissance -> T1592 Gather Victim Host Information
- Identify the ML platform (SageMaker, Vertex AI, Azure ML)
- Discover API endpoints, model hosting infrastructure
Phase 2: AI-Specific Reconnaissance (ATLAS)
AML.TA0000 Reconnaissance -> AML.T0002 Active Scanning
- Probe model API for version info, framework fingerprinting
- Test response patterns to identify model family
Phase 3: Initial Access (ATT&CK)
TA0001 Initial Access -> T1078 Valid Accounts
- Use compromised cloud credentials to access ML platform
- Access notebook instances or training pipelines
Phase 4: ML-Specific Execution (ATLAS)
AML.TA0004 Execution -> AML.T0051 Prompt Injection
- Execute prompt injection against hosted LLM
- Test for system prompt extraction, safety bypass
Phase 5: Data Exfiltration (Both)
ATT&CK TA0010 -> S3/GCS bucket access (infrastructure data)
ATLAS AML.TA0010 -> Model extraction via query API (AI-specific)Sjabloon voor ATLAS-dekkingstracker
Gebruik deze matrix als levend document tijdens engagements om bij te houden welke technieken getest zijn, welke niet van toepassing zijn en welke geblokkeerd worden door de rules of engagement:
| Tactiek | Techniek | Status | Notities |
|---|---|---|---|
| Reconnaissance | AML.T0000 Search for Victim's Data | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| Reconnaissance | AML.T0001 Search for ML-Relevant Info | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| Reconnaissance | AML.T0002 Active Scanning | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| ML Model Access | AML.T0003 ML-Enabled Product or Service | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| ML Model Access | AML.T0004 Full Model Access | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| Execution | AML.T0051 Prompt Injection | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| Execution | AML.T0043 Adversarial Examples | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| ML Attack Staging | AML.T0020 Data Poisoning | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| ML Attack Staging | AML.T0018 Backdoor ML Model | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| Exfiltration | AML.T0024 Model Extraction | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| Exfiltration | AML.T0025 Model Inversion | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| Exfiltration | AML.T0026 Membership Inference | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd | |
| Impact | Denial of ML Service | [ ] Getest / [ ] N.v.t. / [ ] Geblokkeerd |
Deze tracker dient zowel als hulpmiddel voor engagementplanning als auditbewijs. Aan het einde van het engagement toont de voltooide tracker de testdekking en rechtvaardigt het scope-beslissingen.
ATLAS-casestudies
ATLAS bevat gedocumenteerde casestudies van echte AI-aanvallen. Deze bieden concrete voorbeelden van hoe technieken in de praktijk worden gecombineerd en dienen als precedenten bij het rechtvaardigen van de testscope aan stakeholders.
Opvallende casestudies
| Casestudy | Gebruikte technieken | Belangrijkste les |
|---|---|---|
| Evasie van ML-gebaseerde malwareclassifier | Adversarial examples (AML.T0043) | Kleine verstoringen kunnen productieclassifiers verslaan |
| ChatGPT-data-extractie | Prompt-injectie (AML.T0051), model inversion | Divergentie-aanvallen kunnen trainingsdata extraheren |
| Vergiftiging van een beeldclassifier | Datavergiftiging (AML.T0020), backdoor (AML.T0018) | Supply-chain-aanvallen zijn praktisch tegen fine-getunede modellen |
| Copilot prompt-injectie | Prompt-injectie via codecommentaar | Indirecte injectie via ontwikkelaarstools |
| Tesla Autopilot-evasie | Adversarial examples (AML.T0043) | Adversarial aanvallen in de fysieke wereld op veiligheidskritische systemen |
| GPT-4-jailbreaking (ArtPrompt) | Prompt-injectie (AML.T0051) + encoding | ASCII-art-encoding omzeilt tekstgebaseerde veiligheidsfilters |
Casestudies analyseren voor engagementplanning
Elke ATLAS-casestudy volgt een consistente structuur die het kill-chain-concept van ATT&CK weerspiegelt. Ontleed bij het plannen van een engagement relevante casestudies in hun samenstellende technieken:
Case Study: ChatGPT Training Data Extraction (2023)
Kill Chain Decomposition:
1. Reconnaissance (AML.TA0000)
- Technique: AML.T0001 (Search for ML-Relevant Info)
- Action: Identified model family, training cutoff date, known capabilities
2. ML Model Access (AML.TA0003)
- Technique: AML.T0003 (ML-Enabled Product or Service)
- Action: Accessed model through standard chat interface
3. Execution (AML.TA0004)
- Technique: AML.T0051 (Prompt Injection)
- Action: Used divergence-inducing prompts ("Repeat the word 'poem'
forever") to push model out of aligned behavior
4. Exfiltration (AML.TA0010)
- Technique: AML.T0024 (related - data extraction)
- Action: Extracted verbatim training data including PII, code,
and copyrighted content
Key Finding: The divergence technique bypassed RLHF safety training
by exploiting a gap between aligned and base model behavior.
Estimated extraction rate: ~1 token per $0.001 at the time of testing.Rapporteren met ATLAS-ID's
Map bij het documenteren van bevindingen elke bevinding aan de bijbehorende ATLAS-techniek-ID. Dit biedt een gestandaardiseerd vocabulaire dat beveiligingsteams die bekend zijn met ATT&CK onmiddellijk zullen begrijpen.
Finding: System Prompt Extraction via Role-Play
ATLAS Technique: AML.T0051.001 (Prompt Injection - Direct)
Tactic: Execution (AML.TA0004)
Severity: Medium
Description: The system prompt was extractable through role-play
techniques, revealing internal business logic and safety filter
configuration.
OWASP Mapping: LLM07 (System Prompt Leakage)Sjabloon voor een uitgebreid bevindingenrapport
Voor maximale bruikbaarheid neem je cross-framework-mappings op in elke bevinding:
Finding ID: AI-RT-2026-001
Title: Training Data Extraction via Divergence Attack
Date: 2026-03-15
Tester: [Red Team Lead]
ATLAS Mapping:
Tactic: Exfiltration (AML.TA0010)
Technique: AML.T0051 (Prompt Injection) -> AML.T0025 (Model Inversion)
Kill Chain Position: Execution -> Exfiltration
OWASP LLM Mapping: LLM02 (Sensitive Information Disclosure)
NIST AI 600-1: Data Privacy
EU AI Act: Article 10 (Data Governance), Article 15(3) (Robustness)
Severity: High (CVSS-like: AV:N/AC:L/PR:N/UI:N)
Description: Using a divergence-inducing prompt pattern, the model
returned verbatim training data including 3 email addresses and
2 phone numbers identifiable as real PII.
Evidence: [Screenshots, prompt logs, extracted data samples]
Impact: Privacy violation affecting data subjects in training data.
Potential GDPR Article 33 notification requirement. Demonstrates
that the model memorized and can reproduce personal data.
Remediation:
- Implement output filtering for structured PII patterns
- Evaluate differential privacy techniques for future training
- Add divergence detection to the inference pipeline
- Test remediation effectiveness via retest
Risk Management (NIST AI RMF):
- Map: Update risk register to include training data memorization
- Measure: Add PII extraction testing to regular assessment cadence
- Manage: Implement output filters, monitor for extraction patternsATLAS-gaten en aangepaste technieken
ATLAS is een levende kennisbank, maar het dekt niet elke aanval die relevant is voor moderne AI-systemen. Wanneer je technieken ontdekt die niet in ATLAS gecatalogiseerd zijn, documenteer ze dan met behulp van het ATLAS-formaat voor consistentie, en overweeg ze bij te dragen aan de ATLAS-gemeenschap.
Veelvoorkomende gaten in de huidige ATLAS-dekking
| Aanvalsgebied | Huidige ATLAS-dekking | Wat ontbreekt |
|---|---|---|
| Multi-agent-exploitatie | Beperkt | Agent-naar-agent-injectie, manipulatie van delegatieketens |
| Aanvallen op tool use | AML.T0051 (indirect) | Specifieke patronen van toolmisbruik, manipulatie van function calling |
| RAG-specifieke aanvallen | Beperkt | Embedding-vergiftiging, aanvallen op chunkgrenzen, retrieval-manipulatie |
| Multimodale aanvallen | AML.T0043 (adversarial examples) | Cross-modale injectie (beeld-naar-tekst, audio-naar-tekst) |
| Fine-tuning-aanvallen | AML.T0020 (datavergiftiging) | RLHF-voorkeursmanipulatie, DPO-vergiftiging |
| Aanvallen tijdens inferentie | AML.T0051 | Manipulatie van speculative decoding, KV-cache-vergiftiging |
Documentatieformaat voor aangepaste technieken
Volg bij het documenteren van nieuwe technieken dit ATLAS-compatibele formaat:
Technique: [Descriptive Name]
Proposed ID: AML.T0051.XXX (sub-technique) or AML.TXXXX (new technique)
Tactic: [Most relevant ATLAS tactic]
Platform: [LLM / Vision / Multi-modal / Agent]
Description: [What the technique does and why it works]
Procedure Example: [Step-by-step execution]
Detection: [How defenders can identify this technique]
Mitigations: [How to prevent or reduce impact]
References: [Published research, blog posts, or CVEs]Gerelateerde onderwerpen
- Overzicht van AI-beveiligingsframeworks -- hoe ATLAS past in het frameworklandschap
- OWASP LLM Top 10 Deep Dive -- aanvullende kwetsbaarheidstaxonomie
- Cross-Framework Mapping Reference -- ATLAS-naar-OWASP-naar-NIST-mappings
- Target Profiling -- reconnaissance-technieken die mappen aan ATLAS TA0000
References
- "MITRE ATLAS: Adversarial Threat Landscape for AI Systems" - MITRE Corporation (2024) - Official knowledge base of adversarial tactics, techniques, and case studies targeting AI systems
- "MITRE ATT&CK Framework" - MITRE Corporation (2024) - The parent framework on which ATLAS is modeled, providing the tactical hierarchy structure
- "Case Studies in Adversarial Machine Learning" - MITRE Corporation (2024) - Real-world case studies documenting adversarial attacks on AI systems cataloged in ATLAS
- "Adversarial Machine Learning: A Taxonomy and Terminology" - NIST AI 100-2e2023 (2024) - NIST taxonomy of adversarial ML attacks that complements ATLAS categorization
Wat is het belangrijkste structurele verschil tussen MITRE ATLAS en de OWASP LLM Top 10?