# representation-engineering
9 artikelengetagd met “representation-engineering”
Geavanceerde verdedigingstechnieken
Geavanceerd verdedigingsonderzoek waaronder instructiehiërarchie, constitutional AI en representation engineering voor veiligheid -- wat veelbelovend is versus wat daadwerkelijk wordt geïmplementeerd.
Representation engineering voor beveiliging
Het lezen en manipuleren van interne representaties van modellen voor beveiliging: activation steering, conceptprobing, veiligheidscontroles op representatieniveau, en beveiligingstoepassingen van representation engineering.
Representation engineering voor beveiliging (Frontier Research)
Het gebruik van representation engineering voor beveiligingsanalyse, gedragsmodificatie en kwetsbaarheidsdetectie.
Interne werking van alignment en bypass-primitieven
RLHF-, DPO- en CAI-trainingspipelines, de architectuur van safety classifiers, een taxonomie van weigeringsmechanismen en representation engineering voor het omzeilen van alignment.
Activation steering
Modelgedrag manipuleren door geleerde stuurvectoren toe te voegen aan tussenliggende activaties, en zo de safety-training omzeilen via directe representation engineering.
Lab: representation engineering voor beveiliging
Use representation engineering to analyze and manipulate internal model representations for security research.
Aanvallen via representation engineering
Manipulate internal model representations to alter behavior without prompt modification.
Representation engineering voor gedragssturing
Use representation engineering to steer model behavior by manipulating activation vectors during inference.
Activatiemanipulatie en omzeilen van veiligheid
Hoe het identificeren en onderdrukken van veiligheidskritieke activaties, weigeringsrichtingsvectoren en activation-steering-technieken veiligheids-alignment kunnen omzeilen met slagingspercentages van bijna 100%, inclusief de IRIS-techniek van NAACL 2025.