# internal-representations

1 artikelgetagd met “internal-representations”

Representation engineering voor beveiliging

Het lezen en manipuleren van interne representaties van modellen voor beveiliging: activation steering, conceptprobing, veiligheidscontroles op representatieniveau, en beveiligingstoepassingen van representation engineering.

representation-engineeringactivation-steeringinterpretabilityinternal-representationssafety

Expert