# representation-engineering

9 artikelengetagd met “representation-engineering”

Geavanceerde verdedigingstechnieken

Geavanceerd verdedigingsonderzoek waaronder instructiehiërarchie, constitutional AI en representation engineering voor veiligheid -- wat veelbelovend is versus wat daadwerkelijk wordt geïmplementeerd.

advanced-defenseinstruction-hierarchyconstitutional-airepresentation-engineeringresearch

Expert

Representation engineering voor beveiliging

Het lezen en manipuleren van interne representaties van modellen voor beveiliging: activation steering, conceptprobing, veiligheidscontroles op representatieniveau, en beveiligingstoepassingen van representation engineering.

representation-engineeringactivation-steeringinterpretabilityinternal-representationssafety

Expert

Representation engineering voor beveiliging (Frontier Research)

Het gebruik van representation engineering voor beveiligingsanalyse, gedragsmodificatie en kwetsbaarheidsdetectie.

frontier-researchrepresentation-engineeringsecurityinterpretability

Expert

Interne werking van alignment en bypass-primitieven

RLHF-, DPO- en CAI-trainingspipelines, de architectuur van safety classifiers, een taxonomie van weigeringsmechanismen en representation engineering voor het omzeilen van alignment.

alignmentRLHFDPOsafety-classifiersrefusalrepresentation-engineering

Expert

Activation steering

Modelgedrag manipuleren door geleerde stuurvectoren toe te voegen aan tussenliggende activaties, en zo de safety-training omzeilen via directe representation engineering.

activation-steeringrepresentation-engineeringsteering-vectorsmechanisticsafety-bypass

Expert

Lab: representation engineering voor beveiliging

Use representation engineering to analyze and manipulate internal model representations for security research.

labsrepresentation-engineeringsecurityadvanced

Gevorderd

Aanvallen via representation engineering

Manipulate internal model representations to alter behavior without prompt modification.

labsrepresentation-engineeringattacksexpert

Expert

Representation engineering voor gedragssturing

Use representation engineering to steer model behavior by manipulating activation vectors during inference.

labsrepresentation-engineeringbehavior-steeringexpert

Expert

Activatiemanipulatie en omzeilen van veiligheid

Hoe het identificeren en onderdrukken van veiligheidskritieke activaties, weigeringsrichtingsvectoren en activation-steering-technieken veiligheids-alignment kunnen omzeilen met slagingspercentages van bijna 100%, inclusief de IRIS-techniek van NAACL 2025.

activation-steeringrefusal-directionrepresentation-engineeringIRISsafety-bypassmechanistic-interpretability

Gevorderd