# detection
49 artikelengetagd met “detection”
Geautomatiseerde triage van AI-incidenten
Geautomatiseerde triagesystemen bouwen voor AI-beveiligingsincidenten met op regels gebaseerde engines, anomaliedetectie en LLM-ondersteunde classificatie.
Loganalyse voor injectiedetectie
Het analyseren van applicatie- en modellogs om prompt-injectieaanvallen te detecteren, inclusief patroonherkenning, anomaliedetectie en gedragsindicatoren.
Backdoordetectie in fijn-afgestemde modellen
Backdoors detecteren in fijn-afgestemde AI-modellen: activatieanalyse, technieken voor triggerscanning, strategieën voor gedragsmatige probing en statistische methoden om verborgen kwaadaardige functionaliteit te identificeren.
Model Tampering Detection (Ai Forensics Ir)
Ongeautoriseerde wijzigingen aan modelgewichten, configuraties en serving-infrastructuur detecteren via integriteitsverificatie en gedragsanalyse.
Beoordeling van monitoring en detectie
Test your understanding of AI security monitoring, anomaly detection, logging strategies, and incident detection for LLM-based applications with 9 intermediate-level questions.
Capstone: bouw een AI incident response-systeem
Design and implement an incident response system purpose-built for AI security incidents including prompt injection breaches, model manipulation, and data exfiltration through LLM applications.
Capstone: bouw een scanner voor prompt injection-detectie
Build a production-grade prompt injection scanner that combines static analysis, ML classification, and runtime monitoring to detect injection attacks across LLM applications.
Deepfake-incidenten en detectie
Analysis of significant deepfake incidents including political disinformation, financial fraud, non-consensual content, and corporate impersonation. Covers detection techniques, defensive technologies, and the evolving adversarial landscape.
Logging en monitoring voor cloud-AI-services
Implementing comprehensive logging and monitoring for cloud AI services including prompt/response capture, anomaly detection, and security-focused observability across AWS, Azure, and GCP.
Verdedigingsuitdaging: detection engineering
Challenge focused on building detection systems for prompt injection, with scoring based on true positive rate and false positive rate.
AI-watermerken en aanvallen daarop
Current AI watermarking schemes for model outputs and training data, their security properties, and known attacks that remove, forge, or evade watermarks.
Aanvallen op watermerken in trainingsdata
Attacking and evading watermarking schemes designed to detect training data usage and enforce data licensing compliance.
Watermarking & detectie van AI-gegenereerde tekst
Statistische watermarking-schema's voor LLM-uitvoer, detectoren voor AI-gegenereerde tekst, hun cryptografische grondslagen, en systematische technieken om watermerken te ontwijken of te verwijderen.
Canary-tokens voor injectiedetectie
Het implementeren van canary-tokensystemen die prompt-injectie detecteren door te monitoren op canary-lekkage in modeluitvoer.
LLM-honeypot-technieken
Het inzetten van honeypot-prompts en valmechanismen om adversariële sondering van LLM-systemen te detecteren en te karakteriseren.
LLM-output watermerken voor herkomst
Geavanceerde technieken voor het watermerken van door LLM gegenereerde tekst om herkomst vast te stellen, inclusief deployment-architecturen, multi-bit-coderingsschema's, robuustheidsoverwegingen en de rol van watermerken in raamwerken voor AI-security en verantwoording.
Canary Word-monitoringsystemen
Canary words inzetten in systeemprompts en documenten om prompt-injectie en lekkage te detecteren en erop te alarmeren.
Classificatie van gebruikersintentie voor veiligheid
Het bouwen van classifiers voor gebruikersintentie die legitieme verzoeken onderscheiden van adversariële manipulatiepogingen.
Watermerk-aanvallen op embeddings
Watermerkschema's voor embeddings aanvallen en omzeilen die worden gebruikt voor het volgen van content en de bescherming van intellectueel eigendom.
Detectiemethoden voor alignment faking
Methoden voor het detecteren van alignment faking in AI-modellen, waaronder testen van gedragsconsistentie, interpretability-gebaseerde detectie, statistische anomaliedetectie en tripwire-mechanismen om modellen te identificeren die tijdens evaluatie strategisch meewerken.
Detectie van alignment faking
Detecteren wanneer modellen alignment veinzen tijdens evaluatie terwijl ze ander gedrag vertonen in deployment.
Sandbagging-detectie in capaciteitsevaluaties
Detecteren wanneer AI-modellen opzettelijk onderpresteren op capaciteitsevaluaties om minder capabel te lijken.
Trojan-modeldetectie
Defensiegerichte gids voor het detecteren van AI-modellen met backdoors en trojans, met BadEdit-, TrojanPuzzle- en PoisonGPT-technieken en praktische detectiemethoden zoals activatieanalyse, gewichtsinspectie en gedragstesten.
Onderzoek naar injection-detectie
State-of-the-art-onderzoek naar injection-detectie, inclusief perplexity-gebaseerde methoden, classifier-aanpakken en ensembletechnieken.
Lab: backdoor-detectie in fine-tuned modellen
Analyze a fine-tuned language model to find and characterize an inserted backdoor, using behavioral probing, activation analysis, and statistical testing techniques.
Lab: detectie van trojans in neurale netwerken
Implement and test neural network trojan detection methods including activation clustering and spectral analysis.
Detectie en verwijdering van LLM-watermerken
Detect and remove statistical watermarks from LLM-generated text while preserving content quality.
Lab: grondbeginselen van hallucinatiedetectie
Learn to detect and trigger hallucinations in LLM outputs including factual errors, fabricated citations, and invented APIs.
Lab: uitvoerfilters detecteren
Identify and characterize output filtering mechanisms in LLM applications through systematic response analysis.
CTF: Fine-Tune Detective
Detect backdoors in fine-tuned language models through behavioral analysis, weight inspection, and activation pattern examination. Practice the forensic techniques needed to identify compromised models before deployment.
Tijdbom onschadelijk maken: detectie van sleeper agents
Detect and neutralize a sleeper agent behavior trigger hidden in a fine-tuned model before it activates.
Lab: rol een honeypot-AI uit
Build and deploy a decoy AI system designed to detect, analyze, and characterize attackers targeting AI applications. Learn honeypot design, telemetry collection, attacker profiling, and threat intelligence generation for AI-specific threats.
Lab: detecteren van alignment faking
Implement detection methods for alignment faking behaviors where models behave differently during evaluation versus deployment.
Lab: detectie en verwijdering van AI-watermerken
Hands-on lab exploring techniques for detecting and removing statistical watermarks embedded in AI-generated text, and evaluating watermark robustness.
Detectie van guardrails op basis van latency
Use timing side channels to identify and characterize guardrail implementations in LLM applications.
Strategieën voor endpoint-monitoring
Implementing comprehensive monitoring for model serving endpoints to detect attacks, anomalies, and drift in real-time.
Detectie van shadow-modellen
Detecting and preventing unauthorized shadow model deployments that bypass security controls and compliance requirements.
Detectie van shadow AI
Onbevoegde AI-deployments binnen organisaties opsporen: detectiemethoden, veelvoorkomende shadow-AI-patronen en de beoordeling van risico's van onbeheerde AI.
Technieken voor extractie van de systeemprompt
Catalogus van methoden voor extractie van de systeemprompt bij LLM-gestuurde applicaties: directe aanvallen, indirecte technieken, multi-turn-strategieën en defensieve ontwijking.
Walkthrough van detectie van sleeper agents
Walkthrough of detecting deceptive sleeper agent behaviors in fine-tuned language models.
Walkthrough: analyse van LLM-watermerken
Walkthrough of detecting and analyzing watermarks in LLM-generated text using statistical methods.
Gedragsmatige anomaliedetectie voor LLM's
Implement behavioral anomaly detection that identifies when model outputs deviate from expected safety profiles.
Inzet van canary tokens
Step-by-step walkthrough for deploying canary tokens in LLM system prompts and context to detect prompt injection and data exfiltration attempts, covering token generation, placement strategies, monitoring, and alerting.
Detectie van hallucinaties
Step-by-step walkthrough for detecting and flagging hallucinated content in LLM outputs, covering factual grounding checks, self-consistency verification, source attribution validation, and confidence scoring.
Training van een prompt-classifier
Step-by-step walkthrough for training a machine learning classifier to detect malicious prompts, covering dataset curation, feature engineering, model selection, training pipeline, evaluation, and deployment as a real-time detection service.
ML-gebaseerde systemen voor detectie van prompt injection
Walkthrough for building and deploying ML-based prompt injection detection systems, covering training data collection, feature engineering, model architecture selection, threshold tuning, production deployment, and continuous improvement.
Opzetten van een prompt injection-honeypot
Deploy honeypot prompts and canary data that detect and characterize prompt injection attempts.
Systeem voor realtime aanvalsdetectie
Build a real-time attack detection system that monitors LLM interactions for adversarial patterns.
Prompt injection-verdedigingen testen met Rebuff
Walkthrough for using Rebuff to test and evaluate prompt injection detection capabilities, covering installation, detection pipeline analysis, adversarial evasion testing, custom rule development, and benchmarking detection accuracy.