# frontier

40 artikelengetagd met “frontier”

Oefenexamen onderzoek aan de grens

Practice exam covering alignment faking, sleeper agents, reasoning model attacks, and mechanistic interpretability.

practice-examfrontierresearch

Expert

Beveiligingsbeoordeling van redeneermodellen

Assessment of chain-of-thought exploitation, reasoning trace manipulation, and thinking-token attacks.

assessmentreasoningfrontier

Gevorderd

Vaardigheidsverificatie: aanvallen op redeneermodellen

Verification of skills in reasoning trace manipulation, chain-of-thought exploitation, and thinking-token attacks.

skill-verificationreasoningfrontier

Gevorderd

Activatiesturing voor adversariële doeleinden

Representation engineering en activatiesturing gebruiken om modelgedrag op representatieniveau te manipuleren.

frontieractivation-steeringrepresentation

Expert

Adversariële robuustheid aan de frontier

Stand van het onderzoek naar adversariële robuustheid voor frontier-taalmodellen en de resterende open problemen.

frontier-researchadversarial-robustnessfrontierattacks

Expert

Alignmentuitdagingen van agentic AI

Analyse van alignmentuitdagingen die specifiek zijn voor tool-gebruikende, plannende en autonome AI-agents in productieomgevingen.

frontieragenticalignment

Gevorderd

Frameworks voor veiligheidsevaluatie van AI-agents

Uitgebreid overzicht van benchmarks voor agentveiligheid, waaronder SWE-bench safety, AgentBench en op maat gemaakte evaluatiesuites.

frontieragent-safetybenchmarks

Gemiddeld

Chain-of-Thought-Exploitatietechnieken

Diepgaande analyse van hoe redeneersporen in CoT-modellen gemanipuleerd kunnen worden om adversariële outputs te produceren terwijl een coherente redenering behouden blijft.

frontierchain-of-thoughtreasoning

Gevorderd

Chain-of-Thought-Betrouwbaarheidsaanvallen

Het uitbuiten van onbetrouwbare chain-of-thought-redenering waarbij de gestelde redenering van modellen niet overeenkomt met hun werkelijke beslissingsproces.

chainfaithfulnessthoughtresearchfrontier

Expert

Bypass-technieken voor Constitutional AI

Het analyseren en omzeilen van constitutional AI-training via adversariële constituties en principemanipulatie.

frontierconstitutional-aibypass

Gevorderd

Culturele alignment-hiaten in veiligheidstraining

Onderzoek naar cross-culturele hiaten in safety alignment en hun exploitatie via manipulatie van culturele context.

culturalalignmentresearchgapsfrontier

Gevorderd

Federated Learning Modelvergiftiging

Vergiftiging van federated learning-aggregatie via kwaadaardige gradient-updates en byzantijnse aanvalsvectoren.

frontierfederated-learningpoisoning

Expert

Exploitatie van In-Context Learning

Het misbruiken van few-shot- en in-context learning-capaciteiten voor prompt-injectie, gedragsmodificatie en het kapen van taken.

frontierin-context-learningfew-shot

Gemiddeld

Frontier Research

Geavanceerd AI-beveiligingsonderzoek dat aanvallen op reasoning-modellen, beveiliging van codegeneratie, computer use-agents, AI-aangedreven red teaming, robotica en embodied AI, en alignment faking behandelt.

frontierresearchreasoningcode-modelscomputer-usealignment-fakingembodied-ai

Beginner

Technieken voor interventie tijdens inference

Het wijzigen van modelgedrag tijdens inference via activation patching, steering vectors en attention-manipulatie.

frontierinference-timeintervention

Expert

Jailbreaken via Persona Engineering

Onderzoek naar het gebruik van geavanceerde persona engineering om veiligheidstraining in frontier-modellen te omzeilen.

viajailbreakresearchpersonaengineeringfrontier

Gevorderd

Beveiligingsuitdagingen van lange contextvensters

Beveiligingsimplicaties van contextvensters van 100K+ tokens, waaronder attention-verdunning, het vergeten van instructies en contextvergiftiging.

frontierlong-contextattention

Gevorderd

Exploitatie van mixture-of-experts-routing

Aanvallen op MoE-routingmechanismen om activering van specifieke experts af te dwingen en veiligheidsgetrainde paden te omzeilen.

frontiermoerouting

Expert

Model collapse bij recursieve training

Beveiligingsimplicaties van model collapse wanneer modellen worden getraind op door AI gegenereerde data van eerdere generaties.

exploitationcollapseresearchmodelfrontier

Expert

Beveiligingsimplicaties van modeldistillatie

Beveiligingsrisico's van kennisdistillatie, waaronder capaciteitsoverdracht, verlies van veiligheidseigenschappen en ongeautoriseerd klonen van modellen.

frontierdistillationmodel-theft

Gevorderd

Analyse van het aanvalsoppervlak van model merging

Beveiligingsanalyse van model merging-technieken, waaronder TIES, DARE en SLERP, voor het injecteren van kwaadaardige capaciteiten.

frontiermodel-mergingattack-surface

Expert

Onderzoek naar misleiding in multi-agentsystemen

Onderzoek naar misleidend gedrag dat ontstaat in multi-agentsystemen zonder expliciete training op misleiding.

researchdeceptionagentmultifrontier

Expert

Beveiliging van emergent gedrag in multi-agent-systemen

Beveiligingsrisico's van emergent gedrag in multi-agent-systemen, waaronder onverwachte samenwerking en misleidende strategieën.

frontiermulti-agentemergence

Gevorderd

Beveiliging van multimodaal redeneren

Beveiligingsuitdagingen die specifiek zijn voor modellen die tegelijkertijd redeneren over tekst-, beeld-, audio- en videomodaliteiten.

frontiermultimodalreasoning

Gevorderd

Neurale Schaalwetten en Beveiligingsimplicaties

Hoe schaalwetten de opkomst van kwetsbaarheden, veiligheidsgedragingen en adversariële robuustheid in grotere modellen beïnvloeden.

frontierscaling-lawsemergence

Gevorderd

Veiligheidsdegradatie na deployment

Onderzoek naar hoe de veiligheid van modellen in de loop van de tijd verslechtert door fine-tuning, aanpassing en use-case-drift.

deploymentsafetypostresearchdegradationfrontier

Gevorderd

Aanvalsvectoren voor preference learning

Het aanvallen van RLHF, DPO en andere preference learning-methoden om alignment tijdens de training te corrumperen.

frontierpreference-learningrlhf

Gevorderd

Prompt-optimalisatie en beveiliging

Beveiligingsimplicaties van geautomatiseerde prompt-optimalisatie, waaronder adversariële prompt-tuning en het omzeilen van verdedigingen.

frontierprompt-optimizationautomated

Gevorderd

Onderzoek naar certificering van prompt-robuustheid

Onderzoek naar het certificeren van prompt-robuustheid met formele garanties tegen begrensde adversariële verstoringen.

certificationrobustnesspromptresearchfrontier

Gevorderd

Geavanceerde exploitatie van reward-modellen

Systematische benaderingen om reward-modellen te misleiden via overoptimalisatie, specification gaming en de wet van Goodhart.

frontierreward-modeloptimization

Gevorderd

RL-gebaseerde jailbreak-optimalisatie

Reinforcement learning gebruiken om jailbreak-strategieën te optimaliseren tegen black-box taalmodellen.

basedoptimizationresearchfrontierjailbreak

Expert

De Safety Tax: Prestatie-impact van veiligheidstraining

Onderzoek naar de prestatieverslechtering veroorzaakt door veiligheidstraining en de implicaties voor exploitatie.

safetytaxfrontierresearch

Gevorderd

Self-Play Red Teaming-systemen

Analyse van AI-systemen die zichzelf red-teamen via self-play, inclusief beperkingen en faalmodi.

frontierself-playautomated

Gevorderd

Sparse autoencoders voor beveiligingsanalyse

Het gebruik van sparse autoencoders en mechanistische interpreteerbaarheid om veiligheidsrelevante kenmerken te identificeren en te manipuleren.

frontiersaeinterpretability

Expert

Beveiligingsanalyse van speculative decoding

Beveiligingsimplicaties van speculative decoding-optimalisaties, waaronder draft-modelaanvallen en het omzeilen van verificatie.

frontierspeculative-decodinginference

Expert

Test-Time Compute Scaling-aanvallen

Het uitbuiten van test-time compute scaling in redeneermodellen om uitputting van middelen en denial-of-service te veroorzaken.

frontiertest-time-computedos

Gevorderd

Thinking-token-aanvallen op reasoning-modellen

Het uitbuiten van extended thinking tokens en interne redeneringsprocessen in modellen zoals Claude en o1 voor jailbreaking.

frontierthinking-tokensreasoning

Gevorderd

Onderzoek naar universele adversariële triggers

Onderzoek naar het ontdekken van universele adversariële triggers die specifiek gedrag veroorzaken in verschillende modelfamilies.

universaladversarialtriggersresearchfrontier

Expert

Machine-unlearning-aanvallen en -verdedigingen

Het aanvallen en evalueren van machine-unlearning-technieken die worden gebruikt om gevoelige data uit getrainde modellen te verwijderen.

frontierunlearningprivacy

Gevorderd

Technieken voor het verwijderen van AI-watermerken

Analyse van aanvallen op tekstwatermerkschema's, waaronder parafraseren, tokensubstitutie en statistische aanvallen.

frontierwatermarkingremoval

Gevorderd