Representation engineering voor beveiliging
Het lezen en manipuleren van interne representaties van modellen voor beveiliging: activation steering, conceptprobing, veiligheidscontroles op representatieniveau, en beveiligingstoepassingen van representation engineering.
representation-engineeringactivation-steeringinterpretabilityinternal-representationssafety