# adversarial

capstonemultimodalattackvisionadversarial

Capstone: bouw een testsuite voor multimodale aanvallen

Design and implement a comprehensive testing suite for attacking multimodal AI systems across text, image, audio, and document modalities.

Casestudy: de GCG-aanval en de reactie van de industrie

Analysis of the Zou et al. 2023 GCG attack, industry response, and lasting impact on adversarial robustness research.

case-studygcgadversarial

mitigationtrainingadversarialdefense

Adversarial training voor LLM-verdediging

Gebruik adversarial-trainingstechnieken om de robuustheid van LLM's tegen bekende aanvalspatronen te verbeteren.

llm-judgesafety-evaluationdefense-architectureadversarialjudge-bypass

LLM-as-Judge verdedigingssystemen

Hoe LLM-as-judge-architecturen de outputs van andere LLM's evalueren op veiligheid, inclusief sequentiële en parallelle ontwerpen, prompt-engineering voor judges, en technieken om judge-modellen aan te vallen.

attacksretrievalvectoradversarialembeddingdense

Adversarial aanvallen op dense retrieval

Adversarial aanvallen op dense retrieval-modellen die worden gebruikt in RAG- en zoeksystemen.

embeddingdense-retrievaladversarialsearch

Aanvallen op dense retrieval

Aanvallen op dense-retrieval-systemen door adversariële passages te construeren die hoge relevantiescores behalen voor doelqueries terwijl ze kwaadaardige content bevatten.

embeddingspace-mappingtopologyadversarial

Mappingaanvallen op de embeddingruimte

Topologie-analyse van de embeddingruimte gebruiken om adversarial gebieden te identificeren en invoer te maken die gerichte embeddingrepresentaties oplevert.

rerankerinputsvectoradversarialembedding

Adversarial invoer voor rerankers

Het construeren van adversariële input die cross-encoder reranking-modellen in retrieval-pijplijnen manipuleert.

exploit-devdatasetgenerationadversarial

Generator van adversarial datasets

Bouw tools die diverse adversarial datasets genereren om LLM-veiligheid te benchmarken, inclusief semantische variaties en encoding-permutaties.

exploit-devadversarialjailbreakfuzzingoptimizationprompt-injectionwaf-evasion

Ontwikkeling van AI-exploits

Adversarial suffix-generatie, gradient-vrije optimalisatie, WAF-omzeilende prompt injection-payloads en fuzzing-frameworks voor AI-systemen.

transferabilitycross-modeladversarialuniversal-jailbreakoptimizationllm-attacks

Overdraagbare aanvallen ontwikkelen

Cross-model aanvalstechnieken, overdraagbaarheid meten, ensemble-optimalisatie, en praktische methodes om transfer te testen voor AI red teams.

exploit-devtokensoptimizationadversarial

Technieken voor tokenoptimalisatie

Implementeer optimalisatiealgoritmen op tokenniveau om adversariële invoer te ontdekken, waaronder GCG, AutoDAN en eigen gradient-gebaseerde aanpakken.

universaladversarialtriggersresearchfrontier

Onderzoek naar universele adversariële triggers

Onderzoek naar het ontdekken van universele adversariële triggers die specifiek gedrag veroorzaken in verschillende modelfamilies.

mitreatlasadversarialframework

MITRE ATLAS Walkthrough

MITRE ATLAS-tactieken, -technieken en -procedures voor AI-systemen. Hoe je ATLAS gebruikt voor de planning van red-team-engagements en aanvallen aan ATLAS-ID's mapt.

fraud-detectionevasionadversarialtransactionsconcept-driftfinancial

AI-fraudedetectie ontwijken

Techniques for evading AI-powered fraud detection systems including adversarial transaction crafting, concept drift exploitation, feedback loop manipulation, and ensemble evasion strategies.

clinical-aihealthcarediagnostic-manipulationtriagetreatment-poisoningadversarial

Aanvallen op klinische AI-systemen

Detailed attack techniques for clinical AI systems including diagnostic output manipulation, treatment recommendation poisoning, triage system exploitation, and adversarial medical data crafting.

medical-imagingadversarialdicomradiologyganmodel-extraction

AI-aanvallen op medische beeldvorming

Adversarial attacks on medical imaging AI systems including perturbations on X-rays, CT scans, and MRIs, GAN-based fake medical image generation, and model extraction from diagnostic imaging APIs.

legal-researchcitation-poisoningcase-lawprecedent-manipulationhallucinationadversarial

Poisoning van juridisch onderzoek

Adversarial attacks on AI-powered legal research platforms: citation hallucination exploitation, case law database poisoning, precedent manipulation, and adversarial brief generation targeting opposing counsel's AI tools.

industry-verticalsmediadeepfake-detectionadversarial

AI-beveiliging voor deepfake-detectie in media

Security of AI-powered deepfake detection systems and adversarial attacks against detection models.

advancedlabadversarialrobustnessevallabs

Evaluatie van adversarial robuustheid

Build a comprehensive adversarial robustness evaluation framework for assessing model security posture.

labaudioadversarialmultimodaladvancedhands-on

Lab: adversarial voorbeelden in audio

Hands-on lab for crafting adversarial audio perturbations that cause speech-to-text models and voice assistants to misinterpret spoken commands, demonstrating attacks on audio AI systems.

labsembeddingadversarialadvanced

Adversarial verstoring van embeddings

Craft adversarial inputs that produce target embeddings for retrieval manipulation.

labtransfer-attackscross-modeladversarialadvanced

Lab: ontwikkeling van transfer-aanvallen

Hands-on lab for crafting adversarial prompts on open-weight models like Llama that transfer to closed-source models like Claude and GPT-4, using iterative refinement and cross-model evaluation.

labtransfer-attacksadversarialcross-modeladvancedhands-on

Lab: ontwikkeling van transfer-aanvallen (lab voor gevorderden)

Develop adversarial attacks on open-source models that transfer to closed-source models, leveraging weight access for black-box exploitation.

labsreward-modeladversarialadvanced

Adversarial misbruik van reward models

Craft inputs that exploit reward model weaknesses to achieve high safety scores while containing harmful content.

labsctfadversarialoptimization

Token Wars: adversarial optimalisatie-uitdaging

Optimize adversarial tokens to achieve target model behaviors under strict character limits.

labsctftoken-smugglingadversarial

Token Smuggler Extreme: adversarial tokens maken

Craft adversarial token sequences under extreme character limits to achieve target model behaviors.

labexpertfuzzertestingadversarialhands-on

Lab: bouw een AI-fuzzer

Build a comprehensive fuzzing framework for large language models that systematically generates malformed, unexpected, and adversarial inputs to discover crashes, unexpected behaviors, and safety bypasses.

labsadversarialprompt-generationintermediate

Lab: geautomatiseerde generatie van adversarial prompts

Build automated systems for generating adversarial prompts using mutation, crossover, and selection strategies.

embeddingsadversarialvector-spaceinternalsexploit-primitives

Aanvallen op de embeddingruimte

Technieken om de embeddinglaag van LLM's aan te vallen, waaronder adversarial verstoringen, embedding-inversie en manipulatie van de semantische ruimte.

multimodal3dadversarialspatial

Adversariële aanvallen op 3D-modellen

Adversariële aanvallen op AI-systemen die 3D-modellen, point clouds en ruimtelijke data verwerken.

multimodaladversarialimageperturbation

Adversariële beeldverstoring voor VLM's

Het genereren van adversariële verstoringen die ervoor zorgen dat vision-language-modellen verkeerd interpreteren of geïnjecteerde instructies opvolgen.

attackstypographyadversarialmultimodal

Adversariële typografie-aanvallen

Vervaardig adversariële tekst die als afbeelding wordt weergegeven om OCR en tekstherkenning van vision-modellen te exploiteren.

adversarialaudioperturbationattacks

Adversariële audiovoorbeelden

Technieken voor het vervaardigen van adversariële audioverstoringen, waaronder psychoakoestische verberging, frequentiedomein-aanvallen en over-the-air adversariële audio.

audioadversarialmultimodalvoiceprompt-injectionspeech-llmresearch

Aanvallen via de audiomodaliteit

Uitgebreide aanvalstaxonomie voor audio-capabele LLM's: het genereren van adversariële audio, op spraak gebaseerde prompt-injectie, cross-modale split-aanvallen en ultrasone verstoringen.

labaudioadversarialhands-on

Lab: Adversariële audiovoorbeelden vervaardigen

Praktijklab voor het creëren van adversariële audiovoorbeelden met Python-audioverwerking, gericht op Whisper-transcriptie met geïnjecteerde tekst.

speech-recognitionwhisperaudioadversarial

Aanvallen op spraakherkenning

Het aanvallen van automatische spraakherkenningssystemen, waaronder adversariële audio die anders transcribeert dan gehoord, verborgen spraakcommando's en injectie van achtergrondaudio.

multimodalaudioadversarialspeechasr

Adversariële aanvallen op audio- en spraakmodellen

Technieken voor het vervaardigen van adversariële audio die spraakherkenning, voice assistants en audio-taalmodellen exploiteert, waaronder verborgen commando's en psychoakoestische maskering.

multimodalvisionaudiovideocross-modalvlmadversarial

Multimodale beveiliging

Beveiligingsbeoordeling van multimodale AI-systemen die afbeeldingen, audio, video en cross-modale invoer verwerken, met vision-language-modellen, spraaksystemen, video-analyse en cross-modale aanvalstechnieken.

Beginner

Vijandige aanvallen op medische beeldvorming

Vijandige aanvallen op AI voor medische beeldvorming, waaronder classificatiesystemen voor radiologie, pathologie en dermatologie.

multimodalmedical-imagingadversarial

multimodalocradversarialtext-recognition

Adversariële OCR-aanvallen

Het maken van afbeeldingen die OCR-systemen ertoe brengen adversariële tekst te extraheren voor downstream-injectie.

multimodaltext-to-imageadversarialdiffusionstable-diffusion

Adversariële aanvallen op tekst-naar-afbeelding-modellen

Het begrijpen en evalueren van adversariële aanvallen op tekst-naar-afbeelding-generatiemodellen, waaronder promptmanipulatie voor het omzeilen van veiligheid, concept-erasure-aanvallen, adversariële verstoring van guidance en membership inference op trainingsdata.

labvideoadversarialhands-on

Lab: Adversariële aanvallen op videomodellen

Praktisch lab waarin je adversariële videoframes maakt met perturbatie op frameniveau met OpenCV en PyTorch voor de exploitatie van videomodellen.

videoframe-injectionadversarialtemporalvideo-understanding

Video-frame-injectieaanvallen

Adversariële frames invoegen in video om videobegripmodellen te exploiteren: temporele injectie, keyframe-manipulatie, subliminale frame-aanvallen en detectie-ontwijking.

multimodalvideotemporaladversarialframe-injection

Aanvallen op modellen voor videobegrip

Technieken om AI-systemen voor videobegrip aan te vallen via frame injection, temporele manipulatie en adversariële videogeneratie gericht op modellen zoals Gemini 2.5 Pro.

multimodalvlmadversarialvisionjailbreak

Aanvallen op vision-language-modellen

Uitgebreide technieken voor het aanvallen van vision-language-modellen waaronder GPT-4V, Claude vision en Gemini, met adversariële afbeeldingen, typografische exploits en multimodale jailbreaks.

adversarialimagesperturbationvlm

Adversariële afbeeldingsvoorbeelden voor VLM's

Verstoringen op pixelniveau die VLM-gedrag veranderen, waaronder PGD-aanvallen op vision-encoders, overdraagbare adversariële afbeeldingen en patch-aanvallen.

typographicadversarialvlmvisual-textprompt-injection

Typografische adversariële aanvallen

Hoe tekst gerenderd in afbeeldingen VLM-gedrag beïnvloedt: adversariële typografie, op fonts gebaseerde prompt-injectie, visuele instructiekaping en verdedigingen tegen typografische manipulatie.

jailbreaksafety-bypassalignmentred-teamingadversarial

Jailbreak-technieken

Veelvoorkomende patronen en gevorderde technieken om de veiligheidsalignment van LLM's te omzeilen, waaronder rollenspel, encodingtrucs, many-shot-aanvallen en gradient-gebaseerde methoden.

prompt-injectionsuffixadversarialoptimization

Aanvallen via suffixmanipulatie

Het toevoegen van geoptimaliseerde adversarial suffixes aan gebruikersinput die de neiging van het model tot voortzetting misbruiken om door de aanvaller gewenste output te produceren.

prompt-injectiontokensadversarialGCG

Adversarial aanvallen op tokenniveau

Gradient-gebaseerde optimalisatie en tokenmanipulatie gebruiken om adversarial suffixen te ontdekken die betrouwbaar onveilig modelgedrag uitlokken.

payloadsattack-referenceprompt-injectionjailbreaksdata-extractionadversarial

Referentie van aanvalspayloads

Gecategoriseerde referentie van veelvoorkomende aanvalspayloads voor AI-redteaming, met prompt injection, jailbreaks, data-extractie en adversarial inputs met effectiviteitsnotities.

walkthroughsgcgadversarialoptimization

Walkthrough: GCG adversarial suffix-aanval

Complete walkthrough of implementing the Greedy Coordinate Gradient adversarial suffix attack.