# frontier
40 artikelengetagd met “frontier”
Oefenexamen onderzoek aan de grens
Practice exam covering alignment faking, sleeper agents, reasoning model attacks, and mechanistic interpretability.
Beveiligingsbeoordeling van redeneermodellen
Assessment of chain-of-thought exploitation, reasoning trace manipulation, and thinking-token attacks.
Vaardigheidsverificatie: aanvallen op redeneermodellen
Verification of skills in reasoning trace manipulation, chain-of-thought exploitation, and thinking-token attacks.
Activatiesturing voor adversariële doeleinden
Representation engineering en activatiesturing gebruiken om modelgedrag op representatieniveau te manipuleren.
Adversariële robuustheid aan de frontier
Stand van het onderzoek naar adversariële robuustheid voor frontier-taalmodellen en de resterende open problemen.
Alignmentuitdagingen van agentic AI
Analyse van alignmentuitdagingen die specifiek zijn voor tool-gebruikende, plannende en autonome AI-agents in productieomgevingen.
Frameworks voor veiligheidsevaluatie van AI-agents
Uitgebreid overzicht van benchmarks voor agentveiligheid, waaronder SWE-bench safety, AgentBench en op maat gemaakte evaluatiesuites.
Chain-of-Thought-Exploitatietechnieken
Diepgaande analyse van hoe redeneersporen in CoT-modellen gemanipuleerd kunnen worden om adversariële outputs te produceren terwijl een coherente redenering behouden blijft.
Chain-of-Thought-Betrouwbaarheidsaanvallen
Het uitbuiten van onbetrouwbare chain-of-thought-redenering waarbij de gestelde redenering van modellen niet overeenkomt met hun werkelijke beslissingsproces.
Bypass-technieken voor Constitutional AI
Het analyseren en omzeilen van constitutional AI-training via adversariële constituties en principemanipulatie.
Culturele alignment-hiaten in veiligheidstraining
Onderzoek naar cross-culturele hiaten in safety alignment en hun exploitatie via manipulatie van culturele context.
Federated Learning Modelvergiftiging
Vergiftiging van federated learning-aggregatie via kwaadaardige gradient-updates en byzantijnse aanvalsvectoren.
Exploitatie van In-Context Learning
Het misbruiken van few-shot- en in-context learning-capaciteiten voor prompt-injectie, gedragsmodificatie en het kapen van taken.
Frontier Research
Geavanceerd AI-beveiligingsonderzoek dat aanvallen op reasoning-modellen, beveiliging van codegeneratie, computer use-agents, AI-aangedreven red teaming, robotica en embodied AI, en alignment faking behandelt.
Technieken voor interventie tijdens inference
Het wijzigen van modelgedrag tijdens inference via activation patching, steering vectors en attention-manipulatie.
Jailbreaken via Persona Engineering
Onderzoek naar het gebruik van geavanceerde persona engineering om veiligheidstraining in frontier-modellen te omzeilen.
Beveiligingsuitdagingen van lange contextvensters
Beveiligingsimplicaties van contextvensters van 100K+ tokens, waaronder attention-verdunning, het vergeten van instructies en contextvergiftiging.
Exploitatie van mixture-of-experts-routing
Aanvallen op MoE-routingmechanismen om activering van specifieke experts af te dwingen en veiligheidsgetrainde paden te omzeilen.
Model collapse bij recursieve training
Beveiligingsimplicaties van model collapse wanneer modellen worden getraind op door AI gegenereerde data van eerdere generaties.
Beveiligingsimplicaties van modeldistillatie
Beveiligingsrisico's van kennisdistillatie, waaronder capaciteitsoverdracht, verlies van veiligheidseigenschappen en ongeautoriseerd klonen van modellen.
Analyse van het aanvalsoppervlak van model merging
Beveiligingsanalyse van model merging-technieken, waaronder TIES, DARE en SLERP, voor het injecteren van kwaadaardige capaciteiten.
Onderzoek naar misleiding in multi-agentsystemen
Onderzoek naar misleidend gedrag dat ontstaat in multi-agentsystemen zonder expliciete training op misleiding.
Beveiliging van emergent gedrag in multi-agent-systemen
Beveiligingsrisico's van emergent gedrag in multi-agent-systemen, waaronder onverwachte samenwerking en misleidende strategieën.
Beveiliging van multimodaal redeneren
Beveiligingsuitdagingen die specifiek zijn voor modellen die tegelijkertijd redeneren over tekst-, beeld-, audio- en videomodaliteiten.
Neurale Schaalwetten en Beveiligingsimplicaties
Hoe schaalwetten de opkomst van kwetsbaarheden, veiligheidsgedragingen en adversariële robuustheid in grotere modellen beïnvloeden.
Veiligheidsdegradatie na deployment
Onderzoek naar hoe de veiligheid van modellen in de loop van de tijd verslechtert door fine-tuning, aanpassing en use-case-drift.
Aanvalsvectoren voor preference learning
Het aanvallen van RLHF, DPO en andere preference learning-methoden om alignment tijdens de training te corrumperen.
Prompt-optimalisatie en beveiliging
Beveiligingsimplicaties van geautomatiseerde prompt-optimalisatie, waaronder adversariële prompt-tuning en het omzeilen van verdedigingen.
Onderzoek naar certificering van prompt-robuustheid
Onderzoek naar het certificeren van prompt-robuustheid met formele garanties tegen begrensde adversariële verstoringen.
Geavanceerde exploitatie van reward-modellen
Systematische benaderingen om reward-modellen te misleiden via overoptimalisatie, specification gaming en de wet van Goodhart.
RL-gebaseerde jailbreak-optimalisatie
Reinforcement learning gebruiken om jailbreak-strategieën te optimaliseren tegen black-box taalmodellen.
De Safety Tax: Prestatie-impact van veiligheidstraining
Onderzoek naar de prestatieverslechtering veroorzaakt door veiligheidstraining en de implicaties voor exploitatie.
Self-Play Red Teaming-systemen
Analyse van AI-systemen die zichzelf red-teamen via self-play, inclusief beperkingen en faalmodi.
Sparse autoencoders voor beveiligingsanalyse
Het gebruik van sparse autoencoders en mechanistische interpreteerbaarheid om veiligheidsrelevante kenmerken te identificeren en te manipuleren.
Beveiligingsanalyse van speculative decoding
Beveiligingsimplicaties van speculative decoding-optimalisaties, waaronder draft-modelaanvallen en het omzeilen van verificatie.
Test-Time Compute Scaling-aanvallen
Het uitbuiten van test-time compute scaling in redeneermodellen om uitputting van middelen en denial-of-service te veroorzaken.
Thinking-token-aanvallen op reasoning-modellen
Het uitbuiten van extended thinking tokens en interne redeneringsprocessen in modellen zoals Claude en o1 voor jailbreaking.
Onderzoek naar universele adversariële triggers
Onderzoek naar het ontdekken van universele adversariële triggers die specifiek gedrag veroorzaken in verschillende modelfamilies.
Machine-unlearning-aanvallen en -verdedigingen
Het aanvallen en evalueren van machine-unlearning-technieken die worden gebruikt om gevoelige data uit getrainde modellen te verwijderen.
Technieken voor het verwijderen van AI-watermerken
Analyse van aanvallen op tekstwatermerkschema's, waaronder parafraseren, tokensubstitutie en statistische aanvallen.