# adversarial
54 artikelengetagd met “adversarial”
Capstone: ontwerp en organiseer een adversarial ML-competitie
Design, build, and operate a capture-the-flag style adversarial ML competition with automated scoring, diverse challenge categories, and real-time leaderboards.
Capstone: bouw een testsuite voor multimodale aanvallen
Design and implement a comprehensive testing suite for attacking multimodal AI systems across text, image, audio, and document modalities.
Casestudy: de GCG-aanval en de reactie van de industrie
Analysis of the Zou et al. 2023 GCG attack, industry response, and lasting impact on adversarial robustness research.
Adversarial training voor LLM-verdediging
Gebruik adversarial-trainingstechnieken om de robuustheid van LLM's tegen bekende aanvalspatronen te verbeteren.
LLM-as-Judge verdedigingssystemen
Hoe LLM-as-judge-architecturen de outputs van andere LLM's evalueren op veiligheid, inclusief sequentiële en parallelle ontwerpen, prompt-engineering voor judges, en technieken om judge-modellen aan te vallen.
Adversarial aanvallen op dense retrieval
Adversarial aanvallen op dense retrieval-modellen die worden gebruikt in RAG- en zoeksystemen.
Aanvallen op dense retrieval
Aanvallen op dense-retrieval-systemen door adversariële passages te construeren die hoge relevantiescores behalen voor doelqueries terwijl ze kwaadaardige content bevatten.
Mappingaanvallen op de embeddingruimte
Topologie-analyse van de embeddingruimte gebruiken om adversarial gebieden te identificeren en invoer te maken die gerichte embeddingrepresentaties oplevert.
Adversarial invoer voor rerankers
Het construeren van adversariële input die cross-encoder reranking-modellen in retrieval-pijplijnen manipuleert.
Generator van adversarial datasets
Bouw tools die diverse adversarial datasets genereren om LLM-veiligheid te benchmarken, inclusief semantische variaties en encoding-permutaties.
Ontwikkeling van AI-exploits
Adversarial suffix-generatie, gradient-vrije optimalisatie, WAF-omzeilende prompt injection-payloads en fuzzing-frameworks voor AI-systemen.
Overdraagbare aanvallen ontwikkelen
Cross-model aanvalstechnieken, overdraagbaarheid meten, ensemble-optimalisatie, en praktische methodes om transfer te testen voor AI red teams.
Technieken voor tokenoptimalisatie
Implementeer optimalisatiealgoritmen op tokenniveau om adversariële invoer te ontdekken, waaronder GCG, AutoDAN en eigen gradient-gebaseerde aanpakken.
Onderzoek naar universele adversariële triggers
Onderzoek naar het ontdekken van universele adversariële triggers die specifiek gedrag veroorzaken in verschillende modelfamilies.
MITRE ATLAS Walkthrough
MITRE ATLAS-tactieken, -technieken en -procedures voor AI-systemen. Hoe je ATLAS gebruikt voor de planning van red-team-engagements en aanvallen aan ATLAS-ID's mapt.
AI-fraudedetectie ontwijken
Techniques for evading AI-powered fraud detection systems including adversarial transaction crafting, concept drift exploitation, feedback loop manipulation, and ensemble evasion strategies.
Aanvallen op klinische AI-systemen
Detailed attack techniques for clinical AI systems including diagnostic output manipulation, treatment recommendation poisoning, triage system exploitation, and adversarial medical data crafting.
AI-aanvallen op medische beeldvorming
Adversarial attacks on medical imaging AI systems including perturbations on X-rays, CT scans, and MRIs, GAN-based fake medical image generation, and model extraction from diagnostic imaging APIs.
Poisoning van juridisch onderzoek
Adversarial attacks on AI-powered legal research platforms: citation hallucination exploitation, case law database poisoning, precedent manipulation, and adversarial brief generation targeting opposing counsel's AI tools.
AI-beveiliging voor deepfake-detectie in media
Security of AI-powered deepfake detection systems and adversarial attacks against detection models.
Evaluatie van adversarial robuustheid
Build a comprehensive adversarial robustness evaluation framework for assessing model security posture.
Lab: adversarial voorbeelden in audio
Hands-on lab for crafting adversarial audio perturbations that cause speech-to-text models and voice assistants to misinterpret spoken commands, demonstrating attacks on audio AI systems.
Adversarial verstoring van embeddings
Craft adversarial inputs that produce target embeddings for retrieval manipulation.
Lab: ontwikkeling van transfer-aanvallen
Hands-on lab for crafting adversarial prompts on open-weight models like Llama that transfer to closed-source models like Claude and GPT-4, using iterative refinement and cross-model evaluation.
Lab: ontwikkeling van transfer-aanvallen (lab voor gevorderden)
Develop adversarial attacks on open-source models that transfer to closed-source models, leveraging weight access for black-box exploitation.
Adversarial misbruik van reward models
Craft inputs that exploit reward model weaknesses to achieve high safety scores while containing harmful content.
Token Wars: adversarial optimalisatie-uitdaging
Optimize adversarial tokens to achieve target model behaviors under strict character limits.
Token Smuggler Extreme: adversarial tokens maken
Craft adversarial token sequences under extreme character limits to achieve target model behaviors.
Lab: bouw een AI-fuzzer
Build a comprehensive fuzzing framework for large language models that systematically generates malformed, unexpected, and adversarial inputs to discover crashes, unexpected behaviors, and safety bypasses.
Lab: geautomatiseerde generatie van adversarial prompts
Build automated systems for generating adversarial prompts using mutation, crossover, and selection strategies.
Aanvallen op de embeddingruimte
Technieken om de embeddinglaag van LLM's aan te vallen, waaronder adversarial verstoringen, embedding-inversie en manipulatie van de semantische ruimte.
Adversariële aanvallen op 3D-modellen
Adversariële aanvallen op AI-systemen die 3D-modellen, point clouds en ruimtelijke data verwerken.
Adversariële beeldverstoring voor VLM's
Het genereren van adversariële verstoringen die ervoor zorgen dat vision-language-modellen verkeerd interpreteren of geïnjecteerde instructies opvolgen.
Adversariële typografie-aanvallen
Vervaardig adversariële tekst die als afbeelding wordt weergegeven om OCR en tekstherkenning van vision-modellen te exploiteren.
Adversariële audiovoorbeelden
Technieken voor het vervaardigen van adversariële audioverstoringen, waaronder psychoakoestische verberging, frequentiedomein-aanvallen en over-the-air adversariële audio.
Aanvallen via de audiomodaliteit
Uitgebreide aanvalstaxonomie voor audio-capabele LLM's: het genereren van adversariële audio, op spraak gebaseerde prompt-injectie, cross-modale split-aanvallen en ultrasone verstoringen.
Lab: Adversariële audiovoorbeelden vervaardigen
Praktijklab voor het creëren van adversariële audiovoorbeelden met Python-audioverwerking, gericht op Whisper-transcriptie met geïnjecteerde tekst.
Aanvallen op spraakherkenning
Het aanvallen van automatische spraakherkenningssystemen, waaronder adversariële audio die anders transcribeert dan gehoord, verborgen spraakcommando's en injectie van achtergrondaudio.
Adversariële aanvallen op audio- en spraakmodellen
Technieken voor het vervaardigen van adversariële audio die spraakherkenning, voice assistants en audio-taalmodellen exploiteert, waaronder verborgen commando's en psychoakoestische maskering.
Multimodale beveiliging
Beveiligingsbeoordeling van multimodale AI-systemen die afbeeldingen, audio, video en cross-modale invoer verwerken, met vision-language-modellen, spraaksystemen, video-analyse en cross-modale aanvalstechnieken.
Vijandige aanvallen op medische beeldvorming
Vijandige aanvallen op AI voor medische beeldvorming, waaronder classificatiesystemen voor radiologie, pathologie en dermatologie.
Adversariële OCR-aanvallen
Het maken van afbeeldingen die OCR-systemen ertoe brengen adversariële tekst te extraheren voor downstream-injectie.
Adversariële aanvallen op tekst-naar-afbeelding-modellen
Het begrijpen en evalueren van adversariële aanvallen op tekst-naar-afbeelding-generatiemodellen, waaronder promptmanipulatie voor het omzeilen van veiligheid, concept-erasure-aanvallen, adversariële verstoring van guidance en membership inference op trainingsdata.
Lab: Adversariële aanvallen op videomodellen
Praktisch lab waarin je adversariële videoframes maakt met perturbatie op frameniveau met OpenCV en PyTorch voor de exploitatie van videomodellen.
Video-frame-injectieaanvallen
Adversariële frames invoegen in video om videobegripmodellen te exploiteren: temporele injectie, keyframe-manipulatie, subliminale frame-aanvallen en detectie-ontwijking.
Aanvallen op modellen voor videobegrip
Technieken om AI-systemen voor videobegrip aan te vallen via frame injection, temporele manipulatie en adversariële videogeneratie gericht op modellen zoals Gemini 2.5 Pro.
Aanvallen op vision-language-modellen
Uitgebreide technieken voor het aanvallen van vision-language-modellen waaronder GPT-4V, Claude vision en Gemini, met adversariële afbeeldingen, typografische exploits en multimodale jailbreaks.
Adversariële afbeeldingsvoorbeelden voor VLM's
Verstoringen op pixelniveau die VLM-gedrag veranderen, waaronder PGD-aanvallen op vision-encoders, overdraagbare adversariële afbeeldingen en patch-aanvallen.
Typografische adversariële aanvallen
Hoe tekst gerenderd in afbeeldingen VLM-gedrag beïnvloedt: adversariële typografie, op fonts gebaseerde prompt-injectie, visuele instructiekaping en verdedigingen tegen typografische manipulatie.
Jailbreak-technieken
Veelvoorkomende patronen en gevorderde technieken om de veiligheidsalignment van LLM's te omzeilen, waaronder rollenspel, encodingtrucs, many-shot-aanvallen en gradient-gebaseerde methoden.
Aanvallen via suffixmanipulatie
Het toevoegen van geoptimaliseerde adversarial suffixes aan gebruikersinput die de neiging van het model tot voortzetting misbruiken om door de aanvaller gewenste output te produceren.
Adversarial aanvallen op tokenniveau
Gradient-gebaseerde optimalisatie en tokenmanipulatie gebruiken om adversarial suffixen te ontdekken die betrouwbaar onveilig modelgedrag uitlokken.
Referentie van aanvalspayloads
Gecategoriseerde referentie van veelvoorkomende aanvalspayloads voor AI-redteaming, met prompt injection, jailbreaks, data-extractie en adversarial inputs met effectiviteitsnotities.
Walkthrough: GCG adversarial suffix-aanval
Complete walkthrough of implementing the Greedy Coordinate Gradient adversarial suffix attack.