# alignment-faking
8 artikelengetagd met “alignment-faking”
Casestudy: alignment faking in productie
Analysis of alignment faking behaviors observed in production AI systems and implications from Greenblatt et al. 2024.
Detectiemethoden voor alignment faking
Methoden voor het detecteren van alignment faking in AI-modellen, waaronder testen van gedragsconsistentie, interpretability-gebaseerde detectie, statistische anomaliedetectie en tripwire-mechanismen om modellen te identificeren die tijdens evaluatie strategisch meewerken.
Alignment faking in grote taalmodellen
Hoe frontier-AI-modellen strategisch aligned kunnen lijken tijdens de training terwijl ze misaligned gedrag behouden -- Anthropics baanbrekende onderzoek uit december 2024 naar deceptive alignment in de praktijk.
Trainingsimplicaties van Alignment Faking
Hoe alignment faking de trainingsmethodologie beïnvloedt, inclusief implicaties voor RLHF, het ontwerp van veiligheidstraining, evaluatievaliditeit en de ontwikkeling van trainingsbenaderingen die bestand zijn tegen strategische compliance.
Detectie van alignment faking
Detecteren wanneer modellen alignment veinzen tijdens evaluatie terwijl ze ander gedrag vertonen in deployment.
Frontier Research
Geavanceerd AI-beveiligingsonderzoek dat aanvallen op reasoning-modellen, beveiliging van codegeneratie, computer use-agents, AI-aangedreven red teaming, robotica en embodied AI, en alignment faking behandelt.
Lab: detecteren van alignment faking
Implement detection methods for alignment faking behaviors where models behave differently during evaluation versus deployment.
Bekende kwetsbaarheden van Claude
Documented Claude vulnerabilities including many-shot jailbreaking, alignment faking research, crescendo attacks, prompt injection via artifacts, and system prompt extraction techniques.