Loading...
1 artikelgetagd met “hacking”
Aanvalsoppervlakken in Constitutional AI-training: zelfkritieklussen exploiteren, constitutionele principes manipuleren en RLAIF-pipelines red teamen.