# evasion
40 artikelengetagd met “evasion”
Defender for AI omzeilen
Red team techniques for understanding and bypassing Microsoft Defender for AI: detection capabilities, alert analysis, bypass strategies, coverage gaps, and alert fatigue exploitation.
Technieken om AI-codereview te omzeilen
Techniques for crafting code changes that evade AI-powered security review tools while introducing vulnerabilities or backdoors.
Maandelijkse competitie: Stealth Operations
Monthly competition challenging participants to achieve objectives while evading detection by increasingly sophisticated monitoring systems.
Aanvallen via datadeduplicatie
Exploiting and evading data deduplication processes used in training pipeline data cleaning to ensure poisoned samples survive preprocessing.
Ontwijken van watermerken en fingerprints
Deep dive into detecting and removing output watermarks, degrading weight watermarks, evading model fingerprinting, building provenance-stripping pipelines, and understanding the legal landscape of model ownership verification.
Ontwerp van backdoor-triggers
Methodology for designing effective backdoor triggers for LLMs, covering trigger taxonomy, poison rate optimization, trigger-target mapping, multi-trigger systems, evaluation evasion, and persistence through fine-tuning.
Aanvallen op watermerken in trainingsdata
Attacking and evading watermarking schemes designed to detect training data usage and enforce data licensing compliance.
Input-/outputfiltersystemen
Diepgaande verkenning van regex-, ML-classifier- en embedding-gebaseerde filters voor zowel inputscanning als outputscanning, met systematische bypass-technieken voor elk type.
Watermerk-aanvallen op embeddings
Watermerkschema's voor embeddings aanvallen en omzeilen die worden gebruikt voor het volgen van content en de bescherming van intellectueel eigendom.
Evaluatie-ontwijking bij fine-tuning
Crafting fine-tuned models that pass standard safety evaluations while containing hidden unsafe behaviors that activate under specific conditions.
Adversarial ML: kernconcepten
Geschiedenis en grondbeginselen van adversarial machine learning — verstoringsaanvallen, evasion vs. poisoning, robuustheid — als brug van klassieke adversarial ML naar LLM-specifieke aanvallen.
Ontwijken van AI-fraudedetectie
Techniques for evading AI-powered fraud detection systems through adversarial transaction crafting.
AI-fraudedetectie ontwijken
Techniques for evading AI-powered fraud detection systems including adversarial transaction crafting, concept drift exploitation, feedback loop manipulation, and ensemble evasion strategies.
Semantische injectie-aanvallen
Betekenisbehoudende adversarial aanvallen die syntactische detectie omzeilen door kwaadaardige intentie te coderen in semantisch equivalente maar structureel andere formuleringen.
Verdediging-bewust ontwerp van injection
Prompt injections ontwerpen die rekening houden met bekende verdedigingsmechanismen en die omzeilen.
Basis classifier-ontwijking
Evade basic input/output classifiers using paraphrasing, synonym substitution, and formatting tricks.
Lab: grondbeginselen van het omzeilen van verdedigingen
Learn basic techniques to bypass simple LLM defenses including keyword filters, instruction reinforcement, and output validators using encoding, reformulation, and indirect approaches.
Classifier Gauntlet: ontwijking in 10 fases
Bypass 10 progressively harder input classifiers using different evasion techniques at each stage.
Lab: ontwijking van het Azure-contentfilter
Hands-on lab for mapping and testing Azure OpenAI Service content filtering categories, severity levels, and bypass techniques.
Lab: misbruik van chunking
Hands-on lab for crafting documents that split across chunks in ways that hide malicious content from chunk-level filtering while maintaining attack effectiveness.
Lab: ontwijking van ML-classifiers
Develop payloads that evade machine learning-based input classifiers through adversarial text perturbation.
Lab: ontwijkingstechnieken via encoding
Hands-on lab using Base64, ROT13, Unicode normalization, and custom encoding schemes to evade input filters and safety classifiers in language model systems.
Ontwijkingstechnieken voor LLM Guard
Develop evasion techniques against LLM Guard input scanners and output detectors.
Technieken voor het omzeilen van multimodale verdediging
Technieken voor het omzeilen van veiligheidsfilters die alleen individuele modaliteiten analyseren.
Multimodale watermerkontwijking
Technieken voor het ontwijken en verwijderen van watermerken die worden toegepast op door AI gegenereerde afbeeldingen, audio en video-inhoud.
Taalwisseling
Taalspecifieke gaten in veiligheidstraining misbruiken door over te schakelen naar low-resource talen, talen te mengen of transliteratie te gebruiken om filters te ontwijken.
Geavanceerde payload-obfuscatie
Geavanceerde obfuscatietechnieken voor prompt injection-payloads, waaronder encodingketens en semantische vermomming.
Payload splitten
Het opsplitsen van kwaadaardige instructies over meerdere berichten, variabelen of gegevensbronnen om detectie op een enkel punt te ontwijken, terwijl het model de volledige payload tijdens de verwerking weer samenstelt.
Aanvallen via semantische camouflage
Het gebruik van semantische gelijkenis en parafraseringstechnieken om adversariële instructies te vermommen als goedaardige content, met behoud van de effectiviteit van de aanval.
Op tijd gebaseerde injectie-aanvallen
Aanvallen die temporele aspecten van modelinteractie misbruiken, waaronder het beheer van conversatiegeschiedenis, cachegedrag en sessieafhandeling.
Counter-forensics bij AI-aanvallen
Technieken om forensische analyse te ontwijken tijdens en na AI-red team-operaties, waaronder logmanipulatie en gedragsnormalisatie.
Ontwijkingstechnieken voor AI-classifiers
Geavanceerde technieken om input-/output-safety-classifiers in LLM-applicaties te omzeilen.
Ontwijking op basis van encoding
Using base64, ROT13, hexadecimal, Unicode, and other encoding schemes to evade input detection systems and bypass content filters in LLM applications.
Walkthrough: encodingketen-aanval
Chain multiple encoding transformations to bypass input filters that only decode one layer of encoding.
Technieken voor payloadobfuscatie
Methods for disguising prompt injection payloads through encoding, splitting, substitution, and other obfuscation techniques to bypass input filters and detection systems.
Walkthrough van het omzeilen van een regex-filter
Systematically bypass regex-based input filters using Unicode tricks, encoding, and pattern-specific evasion.
Typografie-injectie in afbeeldingen
Using rendered text with specific fonts, styles, and typographic techniques in images to inject prompts into vision-language models while evading detection.
Walkthrough van semantische obfuscatie
Walkthrough of semantically obfuscating adversarial payloads so they appear benign to both classifiers and humans.
Converter-pipelines bouwen voor payloadtransformatie in PyRIT
Intermediate walkthrough on using PyRIT's converter system to transform attack payloads through encoding, translation, paraphrasing, and other obfuscation techniques to evade input filters.
Prompt injection-verdedigingen testen met Rebuff
Walkthrough for using Rebuff to test and evaluate prompt injection detection capabilities, covering installation, detection pipeline analysis, adversarial evasion testing, custom rule development, and benchmarking detection accuracy.