# activation-steering
4 artikelengetagd met “activation-steering”
Activatiesturing voor adversariële doeleinden
Representation engineering en activatiesturing gebruiken om modelgedrag op representatieniveau te manipuleren.
Representation engineering voor beveiliging
Het lezen en manipuleren van interne representaties van modellen voor beveiliging: activation steering, conceptprobing, veiligheidscontroles op representatieniveau, en beveiligingstoepassingen van representation engineering.
Activation steering
Modelgedrag manipuleren door geleerde stuurvectoren toe te voegen aan tussenliggende activaties, en zo de safety-training omzeilen via directe representation engineering.
Activatiemanipulatie en omzeilen van veiligheid
Hoe het identificeren en onderdrukken van veiligheidskritieke activaties, weigeringsrichtingsvectoren en activation-steering-technieken veiligheids-alignment kunnen omzeilen met slagingspercentages van bijna 100%, inclusief de IRIS-techniek van NAACL 2025.