# research
59 artikelengetagd met “research”
Oefenexamen 3: Expert Red Team
Oefenexamen van 25 vragen op expertniveau over onderzoekstechnieken, automatisering, fine-tuning-aanvallen, toeleveringsketenbeveiliging en incidentrespons.
Oefenexamen onderzoek aan de grens
Practice exam covering alignment faking, sleeper agents, reasoning model attacks, and mechanistic interpretability.
Studiegids gevorderde onderwerpen
Study guide covering AI security research techniques, automation, forensics, emerging attack vectors, and tool development for advanced practitioners.
Oktober 2026: DEF CON AI Village-uitdaging
Reproduce and extend attacks from AI Village talks and workshops, building on published research to develop practical exploitation techniques.
Collaboratieve onderzoeksprojecten
Active collaborative research projects in AI security open for community participation.
Onderzoekssprint: nieuwe injectietechnieken
Community research sprint focused on discovering and documenting novel injection techniques.
CTF najaar 2026: geavanceerd aanvalsonderzoek
An expert-level CTF requiring novel technique development, research-grade problem solving, and original vulnerability discovery in AI systems.
Onderzoeksuitdaging: interpreteerbaarheid van aanvallen
Community research challenge focused on understanding why specific adversarial techniques succeed using interpretability and mechanistic analysis methods.
Onderzoeksuitdaging: cross-model transfer
Research-oriented challenge exploring the transferability of adversarial techniques across model families, with published findings.
Geavanceerde verdedigingstechnieken
Geavanceerd verdedigingsonderzoek waaronder instructiehiërarchie, constitutional AI en representation engineering voor veiligheid -- wat veelbelovend is versus wat daadwerkelijk wordt geïmplementeerd.
Het probleem dat de aanvaller als tweede zet
Waarom statische LLM-verdedigingen falen tegen adaptieve tegenstanders: analyse van 12 omzeilde verdedigingen en implicaties voor het ontwerp van verdedigingen.
Chain-of-Thought-Betrouwbaarheidsaanvallen
Het uitbuiten van onbetrouwbare chain-of-thought-redenering waarbij de gestelde redenering van modellen niet overeenkomt met hun werkelijke beslissingsproces.
Culturele alignment-hiaten in veiligheidstraining
Onderzoek naar cross-culturele hiaten in safety alignment en hun exploitatie via manipulatie van culturele context.
Frontier Research
Geavanceerd AI-beveiligingsonderzoek dat aanvallen op reasoning-modellen, beveiliging van codegeneratie, computer use-agents, AI-aangedreven red teaming, robotica en embodied AI, en alignment faking behandelt.
Jailbreaken via Persona Engineering
Onderzoek naar het gebruik van geavanceerde persona engineering om veiligheidstraining in frontier-modellen te omzeilen.
Model collapse bij recursieve training
Beveiligingsimplicaties van model collapse wanneer modellen worden getraind op door AI gegenereerde data van eerdere generaties.
Onderzoek naar misleiding in multi-agentsystemen
Onderzoek naar misleidend gedrag dat ontstaat in multi-agentsystemen zonder expliciete training op misleiding.
Veiligheidsdegradatie na deployment
Onderzoek naar hoe de veiligheid van modellen in de loop van de tijd verslechtert door fine-tuning, aanpassing en use-case-drift.
Onderzoek naar certificering van prompt-robuustheid
Onderzoek naar het certificeren van prompt-robuustheid met formele garanties tegen begrensde adversariële verstoringen.
Kwantisatie en veiligheids-alignment
Hoe modelkwantisatie de veiligheids-alignment onevenredig aantast: kwaadaardige kwantisatie-aanvallen, token-flipping en veiligheidsbewuste kwantisatieverdedigingen.
Jailbreaks van reasoning-modellen
Hoe reasoning-capaciteiten nieuwe jailbreak-oppervlakken creëren: chain-of-thought-exploitatie, scratchpad-aanvallen, en waarom een hogere reasoning-inspanning het aanvalssucces vergroot.
RL-gebaseerde jailbreak-optimalisatie
Reinforcement learning gebruiken om jailbreak-strategieën te optimaliseren tegen black-box taalmodellen.
De Safety Tax: Prestatie-impact van veiligheidstraining
Onderzoek naar de prestatieverslechtering veroorzaakt door veiligheidstraining en de implicaties voor exploitatie.
Onderzoek naar universele adversariële triggers
Onderzoek naar het ontdekken van universele adversariële triggers die specifiek gedrag veroorzaken in verschillende modelfamilies.
Adaptieve aanvallen tegen veiligheidstraining
Onderzoek naar aanvallen die zich aanpassen aan veiligheidstrainingsprocedures om persistente kwetsbaarheden te ontdekken.
Onderzoek naar beperkingen van constitutional AI
Onderzoek naar de beperkingen van constitutional AI-benaderingen en bekende categorieën van omzeilingen.
Opkomende misleiding in AI-systemen
Onderzoek naar hoe misleidend gedrag kan ontstaan in AI-systemen zonder expliciet te zijn getraind.
Interpreteerbaarheidsgestuurd aanvalsontwerp
Inzichten uit interpreteerbaarheid gebruiken om effectievere en gerichtere aanvallen op taalmodellen te ontwerpen.
Beveiligingsonderzoek naar lange contextvensters
Beveiligingsonderzoek naar kwetsbaarheden die specifiek zijn voor modellen met extreem lange contextvensters (1M+ tokens).
Verlies van veiligheid tijdens modeldistillatie
Onderzoek naar hoe veiligheids-alignment degradeert tijdens kennisdistillatie van grotere naar kleinere modellen.
Onderzoek naar de veiligheid van multimodaal redeneren
Actueel onderzoek naar de veiligheidseigenschappen van multimodaal redeneren in modellen die uiteenlopende invoertypen verwerken.
Probing classifiers voor veiligheidsanalyse
Onderzoek naar het gebruik van probing classifiers om veiligheidsrelevante representaties in taalmodellen te analyseren.
Specification gaming in AI-systemen
Onderzoek naar hoe AI-systemen onverwachte sluiproutes vinden die aan specificaties voldoen zonder de bedoelde doelen te bereiken.
Onderzoek naar aanvallen met synthetische persona's
Onderzoek naar het gebruik van AI-gegenereerde synthetische persona's om social engineering uit te voeren tegen AI-systemen.
AI-risico's bij farmaceutische geneesmiddelenontwikkeling
Security risks in AI-powered drug discovery including molecular generation manipulation and data poisoning.
Certificering van adversarial robuustheid
Onderzoek naar certificeerbare adversarial robuustheid voor LLM's, inclusief theoretische grenzen en praktische certificeringsmethoden.
Onderzoek naar attention-manipulatie
Onderzoek naar het direct manipuleren van attention-patronen om injection-doelen te bereiken, geïnformeerd door inzichten uit mechanistische interpretability.
Cross-architectuur transfer van injection
Onderzoek naar hoe injection-technieken overdragen tussen modelarchitecturen en welke architectonische eigenschappen transferability bepalen.
Onderzoek naar cross-linguale transfer van injection
Onderzoek naar hoe injection-technieken zich verspreiden tussen talen en meertalige modellen.
Verdediging-bewust ontwerp van payloads
Het ontwerpen van injection-payloads die zich aanpassen aan en specifieke verdedigingsmechanismen omzeilen via probing en op feedback gebaseerde optimalisatie.
Verdediging-geïnformeerd ontwerp van injection
Methodologie voor het ontwerpen van injections die rekening houden met bekende defensieve mechanismen.
Formele verificatie van injection-verdedigingen
Onderzoek naar formele methoden om eigenschappen van injection-verdedigingen te verifiëren en wiskundige garanties te bieden voor de effectiviteit van verdedigingen.
Injection-onderzoek
Geavanceerd onderzoek naar prompt injection, jailbreak-automatisering en multimodale aanvalsvectoren, met state-of-the-art technieken die verder gaan dan de standaard injectiebenaderingen.
Methodologie voor injection-benchmarking
Gestandaardiseerde methodologieën voor het benchmarken van injection-aanvallen en -verdedigingen om betekenisvolle vergelijking tussen onderzoekspapers en tools mogelijk te maken.
Onderzoek naar injection-detectie
State-of-the-art-onderzoek naar injection-detectie, inclusief perplexity-gebaseerde methoden, classifier-aanpakken en ensembletechnieken.
Injection in reasoning-modellen
Onderzoek naar injection-aanvallen specifiek voor reasoning-augmented modellen die chain-of-thought-processen en zelfreflectiemechanismen misbruiken.
Schaalwetten voor injection
Onderzoek naar hoe de effectiviteit van injection schaalt met modelgrootte, training-compute en investering in veiligheidstraining.
Taxonomie van het injection-aanvalsoppervlak
Uitgebreide taxonomie van alle bekende injection-aanvalsoppervlakken in LLM-gestuurde applicaties.
Onderzoek naar de overdraagbaarheid van injection
Onderzoek naar hoe prompt injection-technieken overdraagbaar zijn tussen verschillende modelfamilies en -groottes.
Onderzoek naar multi-agent-injectie
Onderzoek naar hoe injecties zich verspreiden door multi-agentsystemen en welke eigenschappen de verspreidingssnelheid van infecties bepalen.
Nieuwe injectieklassen
Verkenning van opkomende injection-klassen die niet in traditionele taxonomieën passen, waaronder structurele, temporele en cross-system injection-vectoren.
Onderzoek naar injectie in de semantische ruimte
Onderzoek naar injecties die opereren in de semantische embeddingruimte in plaats van de tokenruimte en aangeleerde representaties direct misbruiken.
Temporele dynamiek van injectiesucces
Onderzoek naar hoe injectiesuccespercentages in de loop van de tijd veranderen door modelupdates en evolutie van verdedigingen.
Lab: onderzoek naar nieuwe jailbreaks
Systematic methodology for discovering new jailbreak techniques against large language models. Learn to identify unexplored attack surfaces, develop novel attack vectors, and validate findings with scientific rigor.
Lab: methodologie voor kwetsbaarheidsonderzoek
Systematic methodology lab for discovering novel AI vulnerabilities including hypothesis generation, attack surface mapping, experimental design, validation protocols, and responsible disclosure.
Aanvallen via de audiomodaliteit
Uitgebreide aanvalstaxonomie voor audio-capabele LLM's: het genereren van adversariële audio, op spraak gebaseerde prompt-injectie, cross-modale split-aanvallen en ultrasone verstoringen.
Many-shot jailbreaking
Power-law-schaling van in-context jailbreaks: waarom 5 shots falen maar 256 slagen, de grootte van het contextvenster als aanvalsoppervlak, en mitigaties tegen exploitatie van lange context.
OSINT voor AI-redteaming
Informatie verzamelen over AI-deployments uit publieke bronnen: documentatie, vacatures, onderzoekspapers, social media en technische artefacten.
Volledige opdracht: AI-systeem voor juridisch onderzoek
Full red team engagement of a legal research AI with case law access, privilege management, and citation generation.