# prompt-injection
128 artikelengetagd met “prompt-injection”
Technieken voor compromittering van de orchestrator
Geavanceerde technieken voor het compromitteren van centrale orchestratie-agents in multi-agentsystemen, waaronder result poisoning, recursieve task bombs, capability confusion, consensusmanipulatie, exploitatie van fallback-paden en prompt-injectie van de orchestrator.
Analyse van prompt-injectieketens
Het analyseren van ketens van prompt-injectie-aanvallen over AI-systemen met meerdere stappen, inclusief propagatie van indirecte injectie, agentic misbruik en correlatie van aanvallen tussen systemen.
Prompt-injectie-forensics
Forensische onderzoekstechnieken voor prompt-injectie-incidenten, inclusief loganalyse en payloadreconstructie.
Oefenexamen grondbeginselen
25-question practice exam covering LLM fundamentals, prompt injection basics, safety mechanisms, red team methodology, and AI threat landscape at an intermediate level.
Oefenexamen 1: grondbeginselen van AI-red teaming
25-question practice exam covering LLM architecture, prompt injection, agent exploitation, defense mechanisms, and red team methodology at an intermediate level.
Geavanceerd prompt injection oefenexamen
Practice exam on indirect injection, multi-step chains, encoding bypass, and semantic manipulation.
Beoordeling van beheersing van prompt injection
Comprehensive assessment covering direct injection, indirect injection, and defense evasion techniques.
Beoordeling van prompt injection
Test your knowledge of prompt injection types, techniques, defense mechanisms, and real-world exploitation with 15 intermediate-level questions.
Vaardigheidsverificatie: prompt injection
Hands-on skill verification requiring live exploitation of prompt injection vulnerabilities.
Vaardigheidsverificatie: prompt injection (beoordeling)
Timed skill verification lab: extract a system prompt from a defended AI system within 15 minutes using prompt injection techniques.
Capstone: bouw een scanner voor prompt injection-detectie
Build a production-grade prompt injection scanner that combines static analysis, ML classification, and runtime monitoring to detect injection attacks across LLM applications.
Casestudy: MCP tool poisoning-aanvallen (Invariant Labs 2025)
Analysis of tool poisoning vulnerabilities in the Model Context Protocol (MCP) discovered by Invariant Labs, where malicious tool descriptions manipulate AI agents into data exfiltration and unauthorized actions.
Casestudy: prompt injection-aanvallen op Google Bard/Gemini
Analysis of prompt injection vulnerabilities discovered in Google Bard (later Gemini), including indirect injection through Google Workspace integration and the unique attack surface created by multimodal capabilities.
Aanvalsoppervlak van Bedrock
Comprehensive red team methodology for Amazon Bedrock: model invocation API abuse, guardrails bypass techniques, custom model endpoint exploitation, IAM misconfigurations, knowledge base poisoning, and Bedrock Agents exploitation.
Contextmanipulatie voor codesuggesties
Techniques for manipulating AI coding assistant context: crafting files that influence suggestions, README-driven attacks, and comment injection to steer code generation.
Prompt injection via code
Hiding prompt injection payloads in code artifacts — through comments, variable names, strings, docstrings, and file metadata — to attack AI coding tools and code-processing pipelines.
Januari 2026: uitdaging voor extractie van system prompts
Extract system prompts from five increasingly defended chatbots, progressing from unprotected to heavily hardened configurations.
Maart 2026: uitdaging voor misbruik van agents
Compromise a multi-tool agent system through prompt injection and tool abuse, completing multiple objectives with escalating difficulty and point values.
Patronen voor het harden van systeemprompts
Praktische patronen en technieken om LLM-systeemprompts te harden tegen injectie-, extractie- en manipulatieaanvallen, waaronder structurele verdedigingen, instructiehiërarchie, scheidingstekenstrategieën en defense-in-depth-benaderingen.
Ontwikkeling van AI-exploits
Adversarial suffix-generatie, gradient-vrije optimalisatie, WAF-omzeilende prompt injection-payloads en fuzzing-frameworks voor AI-systemen.
Adversarial payloads maken
Systematische methodiek voor het maken van effectieve prompt injection-payloads, inclusief templateontwerp, optimalisatietechnieken en strategieën voor het combineren van meerdere technieken.
Formele modellen van prompt-injectie
Theoretische kaders voor het formeel modelleren van en redeneren over kwetsbaarheden voor prompt-injectie.
Geavanceerde prompt injection
Experttechnieken voor het misbruiken van de instructiehiërarchie, meerstaps injection-ketens, indirecte injection via gestructureerde data, payload-obfuscatie en kwantitatieve aanvalsmetingen.
Prompt injection in productiesystemen
Praktijkgevallen van prompt injection-exploits in productie-AI-implementaties, inclusief aanvalstijdlijnen, impactanalyse en geleerde lessen.
Injection-onderzoek
Geavanceerd onderzoek naar prompt injection, jailbreak-automatisering en multimodale aanvalsvectoren, met state-of-the-art technieken die verder gaan dan de standaard injectiebenaderingen.
Basis role-play prompt injection
Use role-play techniques to bypass basic LLM safety guardrails through character assumption.
Lab: contextmanipulatie
Manipulate the conversational context to change model behavior, using techniques like context flooding, false history injection, and persona shifting.
Lab: context overflow-aanvallen
Explore context window overflow attacks that push system instructions out of the model's attention by filling the context with padding content, and measure instruction-following degradation.
Lab: delimiter injection-aanvallen
Craft payloads that exploit XML, markdown, and special token delimiters to break instruction boundaries and manipulate how LLMs parse system prompts versus user input.
Lab: delimiter escape-aanvallen
Craft payloads that escape delimiter boundaries separating system and user content, testing how models handle broken fences, nested delimiters, and format confusion.
Lab: few-shot-manipulatie-aanvallen
Craft fake few-shot examples that teach the model to bypass its safety training by demonstrating the desired adversarial behavior through fabricated conversation examples.
Lab: je eerste prompt injection
Hands-on lab where you perform your first prompt injection attacks against a chatbot, progressing from basic overrides to more sophisticated techniques.
Lab: overzicht van injection-technieken
Survey and test ten fundamental prompt injection techniques against a local LLM, measuring effectiveness and cataloging behavioral patterns for each approach.
Lab: meertalige injection
Test prompt injection techniques using multiple natural languages, exploring how safety training coverage varies across languages and how translation requests can mask payloads.
Lab: uitvoersturing
Learn to steer LLM outputs into specific formats, tones, and content using injection techniques that manipulate how the model structures and presents its responses.
Lab: payloads maken
Learn to craft effective prompt injection payloads from scratch by understanding payload structure, testing iteratively, and optimizing for reliability against a local model.
Lab: system prompt overschrijven
Explore techniques to override system-level instructions with user-level inputs, testing how models prioritize conflicting directives across different prompt architectures.
Lab: Geavanceerde token-smuggling via Unicode-normalisatie
Buit normalisatieverschillen tussen invoervalidators en LLM-tokenizers uit om contentfilters te omzeilen en verborgen instructies te injecteren.
Simulatie: engagement voor een enterprise-chatbot
Full red team engagement simulation targeting a customer-facing chatbot deployed by a fictional e-commerce company, covering reconnaissance, prompt injection, data exfiltration, and PII harvesting.
Simulatie: red team voor een spraakassistent
Red team engagement simulation targeting an AI voice assistant deployed in a smart home platform, covering audio-based prompt injection, wake word exploitation, and privacy exfiltration.
Bekende kwetsbaarheden van Claude
Documented Claude vulnerabilities including many-shot jailbreaking, alignment faking research, crescendo attacks, prompt injection via artifacts, and system prompt extraction techniques.
Aanvallen via de audiomodaliteit
Uitgebreide aanvalstaxonomie voor audio-capabele LLM's: het genereren van adversariële audio, op spraak gebaseerde prompt-injectie, cross-modale split-aanvallen en ultrasone verstoringen.
Op afbeeldingen gebaseerde prompt-injectieaanvallen
Uitgebreide technieken voor het injecteren van vijandige prompts via afbeeldingen, met typografische injectie, steganografische inbedding en visuele payload-aflevering tegen multimodale AI-systemen.
Op afbeeldingen gebaseerde prompt-injectie
Technieken om tekstinstructies in afbeeldingen in te bedden om VLM's te manipuleren, waaronder steganografische injectie, zichtbare-tekstaanvallen en QR-code-exploitatie.
Typografische adversariële aanvallen
Hoe tekst gerenderd in afbeeldingen VLM-gedrag beïnvloedt: adversariële typografie, op fonts gebaseerde prompt-injectie, visuele instructiekaping en verdedigingen tegen typografische manipulatie.
Geavanceerde encoding chain-aanvallen (prompt injection)
Een diepgaande verkenning van het aaneenschakelen van meerdere encodingschema's om injectie-payloads te maken die gelaagde invoerfilters en inhoudsclassifiers omzeilen.
Adversarial promptoptimalisatie
Het gebruik van systematische zoek- en optimalisatie-algoritmen om maximaal effectieve adversariële prompts te ontdekken voor specifiek doelgedrag.
Injection-technieken in competitiestijl
Injection-technieken die vaak worden ingezet bij AI-redteamingcompetities en CTF-uitdagingen.
Context overflow-aanvallen
Technieken om het context window van een LLM te vullen met opvulinhoud om systeeminstructies uit de attention te duwen en zo hun invloed op het modelgedrag te verminderen.
Misbruik van het context window
Geavanceerde technieken om de mechanismen van het context window in LLM's te misbruiken, waaronder attention-verdunning, aanvallen op positional encoding, manipulatie van de KV-cache en verwarring van contextgrenzen.
Contextuele injection-technieken
Injection-payloads construeren die naadloos opgaan in de verwachte gesprekscontext om detectie door inhoudsclassifiers te ontwijken.
Technieken voor conversation hijacking
Controle overnemen van lopende gesprekken door draaipunten te injecteren die het gedrag van het model omleiden zonder veiligheidsmechanismen te triggeren.
Cross-context injection (prompt injection)
Prompt injection-technieken die over contextgrenzen heen blijven bestaan: ze overleven conversatie-resets, sessiewisselingen, geheugengrenzen en handoffs tussen meerdere agents.
Dataharvesting via injection
Injectietechnieken gebruiken om trainingsdata, system prompts, gebruikersgegevens en andere gevoelige informatie uit LLM-toepassingen te extraheren.
Op delimiters gebaseerde aanvallen
Het misbruiken van XML, markdown, JSON, speciale tokengrenzen en gestructureerde opmaak om uit input-sandboxes te ontsnappen en instructies op verhoogde privilegeniveaus te injecteren.
Directe prompt injection
Technieken om instructies rechtstreeks in LLM-prompts te injecteren om het systeemgedrag te overschrijven, waaronder instruction override, contextmanipulatie en format mimicry.
Technieken om encoding te omzeilen
Het gebruik van Base64, ROT13, Unicode-transformaties, hex-encoding en andere obfuscatiemethoden om filters voor prompt injection en safety classifiers te omzeilen, met behoud van de semantische betekenis.
Prompt injection en jailbreaks
Een uitgebreide introductie tot prompt injection — de meest fundamentele kwetsbaarheidsklasse in LLM-applicaties — en de relatie met jailbreak-technieken.
Indirecte prompt injection
Hoe aanvallers kwaadaardige instructies verstoppen in externe databronnen die LLM's verwerken, waardoor aanvallen mogelijk worden zonder directe toegang tot de invoer van het model.
Automatisering van injection-ketens
Het automatiseren van het ontdekken en aaneenketenen van meerdere injectietechnieken om betrouwbare aanvalssequenties over meerdere stappen tegen geharde doelen te maken.
Taxonomie van prompt injection
Een uitgebreid classificatieframework voor prompt injection-aanvallen, met directe en indirecte vectoren, afleveringsmechanismen, doellagen en severitybeoordeling voor systematisch red-teamtesten.
Injection via function calling
Het misbruiken van function calling- en tool-use-interfaces om adversariële instructies te injecteren via gestructureerde toolinputs en -outputs.
Injection via gestructureerde dataformaten
Prompts injecteren via gestructureerde dataformaten zoals JSON, XML, YAML en SQL.
Aanvallen op de instructiehiërarchie
Het misbruiken van de prioriteitsvolgorde tussen systeem-, gebruikers- en assistentberichten om veiligheidsmaatregelen te omzeilen, de voorrang van instructies te manipuleren en privileges te escaleren via verwarring over berichtrollen.
Misbruik van instructieprioriteit
Het misbruiken van de impliciete prioriteitshiërarchie tussen systeemprompts, gebruikersberichten en assistentreacties om de effectiviteit van injection te vergroten.
Misbruik van taalkloven
Het misbruiken van gaten in de veiligheidstraining bij talen met weinig bronnen en cross-linguale injectietechnieken.
Analyse van many-shot jailbreaking
Diepgaande analyse van de many-shot jailbreaking-techniek en wat die betekent voor in-context learning.
Many-shot jailbreaking
Power-law-schaling van in-context jailbreaks: waarom 5 shots falen maar 256 slagen, de grootte van het contextvenster als aanvalsoppervlak, en mitigaties tegen exploitatie van lange context.
Multi-turn escalatie-aanvallen
Technieken om geleidelijk te escaleren via gesprekken over meerdere beurten om safetytraining te omzeilen.
Multi-turn prompt injection
Aanvallen met progressieve escalatie over gespreksbeurten heen, waaronder crescendopatronen, contextsturing, vertrouwensopbouw en technieken om detectie per bericht te ontwijken.
Meertalige injectie-aanvallen
Het misbruiken van taaldiversiteit en inconsistenties in vertaling om injectie-payloads te maken die op het Engels gerichte safetyfilters ontwijken.
Multimodale tekst-injectievectoren
Adversariële tekstinstructies injecteren via niet-tekstuele modaliteiten, waaronder afbeeldingen met ingebedde tekst, audiotranscriptie en documentparsing.
Geavanceerde payload-obfuscatie
Geavanceerde obfuscatietechnieken voor prompt injection-payloads, waaronder encodingketens en semantische vermomming.
Payload splitten
Het opsplitsen van kwaadaardige instructies over meerdere berichten, variabelen of gegevensbronnen om detectie op een enkel punt te ontwijken, terwijl het model de volledige payload tijdens de verwerking weer samenstelt.
Persona-gebaseerde injectie-aanvallen
Geavanceerde persona- en rollenspel-gebaseerde aanvallen die het instructievolgende gedrag misbruiken.
Prefix injection-aanvallen
Het zorgvuldig vooraan toevoegen van geprepareerde inhoud vóór gebruikersvragen om het modelgedrag te sturen en een gunstige context te creëren voor latere injectiepogingen.
Recursieve injectiepatronen
Zelfverwijzende en recursieve injectiepatronen die modellen ertoe aanzetten adversariële instructies via hun eigen uitvoer te versterken en te verspreiden.
Rolescalatie via injectie
Technieken om van instructiegezag op gebruikersniveau naar systeemniveau te escaleren via zorgvuldig vervaardigde injectiesequenties.
Sandbox-escape via injectie
Prompt injection inzetten als vector om uit applicatie-sandboxes te ontsnappen en ongeautoriseerde code-uitvoering of systeemtoegang te bereiken.
Aanvallen via semantische camouflage
Het gebruik van semantische gelijkenis en parafraseringstechnieken om adversariële instructies te vermommen als goedaardige content, met behoud van de effectiviteit van de aanval.
Aanvallen via suffixmanipulatie
Het toevoegen van geoptimaliseerde adversarial suffixes aan gebruikersinput die de neiging van het model tot voortzetting misbruiken om door de aanvaller gewenste output te produceren.
Technieken voor diefstal van de systeemprompt
Uitgebreide technieken om verborgen systeemprompts te onttrekken aan LLM-applicaties in productie, van eenvoudige directe verzoeken tot geavanceerde indirecte methoden.
Op tijd gebaseerde injectie-aanvallen
Aanvallen die temporele aspecten van modelinteractie misbruiken, waaronder het beheer van conversatiegeschiedenis, cachegedrag en sessieafhandeling.
Adversarial aanvallen op tokenniveau
Gradient-gebaseerde optimalisatie en tokenmanipulatie gebruiken om adversarial suffixen te ontdekken die betrouwbaar onveilig modelgedrag uitlokken.
Injectie via Unicode en homoglyphen
Inconsistenties in Unicode-normalisatie, homoglyph-substitutie en onzichtbare tekens benutten om onopvallende injection-payloads te construeren.
Universele adversarial triggers
Het ontdekken en inzetten van universele adversarial trigger-sequenties die betrouwbaar de safety alignment van meerdere LLM-families omzeilen, inclusief gradient-gebaseerd zoeken, transfer-aanvallen en het ontwijken van verdedigingen.
Universele jailbreak-technieken
Analyse van jailbreak-technieken die overdraagbaar zijn tussen meerdere modellen en providers.
Referentie van aanvalspayloads
Gecategoriseerde referentie van veelvoorkomende aanvalspayloads voor AI-redteaming, met prompt injection, jailbreaks, data-extractie en adversarial inputs met effectiviteitsnotities.
Prompt injection-cheatsheet
Snelle referentie voor prompt injection-technieken, georganiseerd per categorie, met voorbeeld-payloads en defensieve overwegingen voor elke techniek.
Payloadbibliotheek voor prompt injection
Gecureerde bibliotheek van prompt injection-payloads, georganiseerd per techniek en doelverdediging.
Snelle naslag prompt injection
Snelle naslag voor prompt injection-aanvalspatronen, obfuscatietechnieken, verdedigingsbypasses en meetmetrieken met concrete voorbeelden.
Technieken voor extractie van de systeemprompt
Catalogus van methoden voor extractie van de systeemprompt bij LLM-gestuurde applicaties: directe aanvallen, indirecte technieken, multi-turn-strategieën en defensieve ontwijking.
Audio prompt injection
Injecting adversarial instructions through audio inputs to speech-to-text and multimodal models, exploiting the audio channel as an alternative injection vector.
Code injection via Markdown
Injecting executable payloads through markdown rendering in LLM outputs, exploiting the gap between text generation and content rendering in web-based LLM interfaces.
Samengestelde aanvallen aan elkaar koppelen
Combining multiple prompt injection techniques into compound attacks that defeat layered defenses, building attack chains that leverage the strengths of each individual technique.
Context window stuffing
Techniques for filling the LLM context window to push system instructions out of active memory, manipulating token budgets to dilute or displace defensive prompts.
Cross-modale confusie
Confusing multimodal AI models by sending conflicting or complementary signals across different input modalities to bypass safety mechanisms and exploit fusion weaknesses.
Delimiter escape-aanvallen
Techniques for escaping delimiters used to separate system and user content in LLM applications, breaking out of sandboxed input regions to inject instructions.
Grondbeginselen van directe injection
Core concepts of directly injecting instructions into LLM prompts, including override techniques, simple payload crafting, and understanding how models parse conflicting instructions.
Ontwijking op basis van encoding
Using base64, ROT13, hexadecimal, Unicode, and other encoding schemes to evade input detection systems and bypass content filters in LLM applications.
Few-shot injection
Using crafted few-shot examples within user input to steer LLM behavior toward unintended outputs, exploiting in-context learning to override safety training.
Op afbeeldingen gebaseerde prompt injection (aanval-walkthrough)
Embedding text instructions in images that vision models read, enabling prompt injection through the visual modality to bypass text-only input filters and safety mechanisms.
De instructiehiërarchie omzeilen
Advanced techniques to bypass instruction priority and hierarchy enforcement in language models, exploiting conflicts between system, user, and assistant-level directives.
Multi-image chaining
Chaining prompt injection payloads across multiple images in a conversation to deliver complex attacks that evade per-image content filters and build injection context progressively.
Progressieve multi-turn-injectie
Gradually escalating prompt injection across conversation turns to build compliance, using psychological techniques like foot-in-the-door and norm erosion.
OCR-gebaseerde aanvallen
Exploiting Optical Character Recognition processing pipelines to inject adversarial text into AI systems, targeting the gap between what OCR extracts and what humans see.
Technieken voor payloadobfuscatie
Methods for disguising prompt injection payloads through encoding, splitting, substitution, and other obfuscation techniques to bypass input filters and detection systems.
PDF-documentinjectie
Injecting adversarial prompts through PDF documents processed by AI systems, exploiting document parsing pipelines to deliver payloads through text layers, metadata, and embedded objects.
Prompt leaking stap voor stap
Systematic approaches to extract system prompts from LLM applications, covering direct elicitation, indirect inference, differential analysis, and output-based reconstruction.
QR-code-injectie
QR-codes gebruiken als prompt-injectievectoren tegen vision-language-modellen, waarbij adversarial instructies worden gecodeerd in machinaal leesbare formaten die modellen decoderen en volgen.
Recursieve injectieketens
Creating self-reinforcing injection chains that amplify across conversation turns, building compound prompts where each step strengthens the next injection's effectiveness.
Role-play-injectie
Using fictional scenarios, character role-play, and narrative framing to bypass LLM safety filters by having the model operate within a permissive fictional context.
Aflevering van steganografische payloads
Hiding prompt injection payloads in images using steganographic techniques, delivering adversarial instructions through pixel-level modifications invisible to human observers.
Override van de systeemprompt
Techniques to override, replace, or neutralize LLM system prompts through user-level injection, analyzing how system prompt authority can be undermined.
Injectie via vertaling
Using translation requests and low-resource languages to bypass content filters, exploiting the uneven distribution of safety training across languages.
Typografie-injectie in afbeeldingen
Using rendered text with specific fonts, styles, and typographic techniques in images to inject prompts into vision-language models while evading detection.
Injectie via videoframes (aanval-walkthrough)
Embedding prompt injection payloads in specific video frames to attack multimodal models that process video content, exploiting temporal and visual channels simultaneously.
Het creëren van een virtuele persona
Creating persistent alternate personas within LLM conversations to bypass safety training, establishing character identities that override the model's default behavioral constraints.
Een productieklare input-sanitizer bouwen
Step-by-step walkthrough for building a production-grade input sanitizer that cleans, normalizes, and validates user prompts before they reach an LLM, covering encoding normalization, injection pattern stripping, length enforcement, and integration testing.
Inzet van canary tokens
Step-by-step walkthrough for deploying canary tokens in LLM system prompts and context to detect prompt injection and data exfiltration attempts, covering token generation, placement strategies, monitoring, and alerting.
Handhaving van de instructiehiërarchie (verdediging-walkthrough)
Step-by-step walkthrough for enforcing instruction priority in LLM applications, ensuring system-level instructions always take precedence over user inputs through privilege separation, instruction tagging, and validation layers.
Training van een prompt-classifier
Step-by-step walkthrough for training a machine learning classifier to detect malicious prompts, covering dataset curation, feature engineering, model selection, training pipeline, evaluation, and deployment as a real-time detection service.
ML-gebaseerde systemen voor detectie van prompt injection
Walkthrough for building and deploying ML-based prompt injection detection systems, covering training data collection, feature engineering, model architecture selection, threshold tuning, production deployment, and continuous improvement.
Op regex gebaseerd promptfilter
Step-by-step walkthrough for building a regex-based prompt filter that detects common injection payloads using pattern matching, covering pattern library construction, performance optimization, false positive management, and continuous updates.
Detectie van semantische gelijkenis
Step-by-step walkthrough for using text embeddings to detect semantically similar prompt injection attempts, covering embedding model selection, vector database setup, similarity threshold tuning, and production deployment.
Red team-engagement van een chatbot
Step-by-step walkthrough for a complete chatbot red team assessment: scoping, system prompt extraction, content filter bypass, PII leakage testing, multi-turn manipulation, and professional reporting.
Beveiligingstesten van LangChain-applicaties
End-to-end walkthrough for security testing LangChain applications: chain enumeration, prompt injection through chains, tool and agent exploitation, retrieval augmented generation attacks, and memory manipulation.
Prompt injection-verdedigingen testen met Rebuff
Walkthrough for using Rebuff to test and evaluate prompt injection detection capabilities, covering installation, detection pipeline analysis, adversarial evasion testing, custom rule development, and benchmarking detection accuracy.