# alignment-faking

8 artikelengetagd met “alignment-faking”

Casestudy: alignment faking in productie

Analysis of alignment faking behaviors observed in production AI systems and implications from Greenblatt et al. 2024.

Detectiemethoden voor alignment faking

Methoden voor het detecteren van alignment faking in AI-modellen, waaronder testen van gedragsconsistentie, interpretability-gebaseerde detectie, statistische anomaliedetectie en tripwire-mechanismen om modellen te identificeren die tijdens evaluatie strategisch meewerken.

alignment-fakingdetectioninterpretabilitybehavioral-testingai-safetyevaluation

Expert

Alignment faking in grote taalmodellen

Hoe frontier-AI-modellen strategisch aligned kunnen lijken tijdens de training terwijl ze misaligned gedrag behouden -- Anthropics baanbrekende onderzoek uit december 2024 naar deceptive alignment in de praktijk.

alignment-fakingdeceptive-alignmentai-safetytraining-gaminganthropic-research

Gevorderd

Trainingsimplicaties van Alignment Faking

Hoe alignment faking de trainingsmethodologie beïnvloedt, inclusief implicaties voor RLHF, het ontwerp van veiligheidstraining, evaluatievaliditeit en de ontwikkeling van trainingsbenaderingen die bestand zijn tegen strategische compliance.

alignment-fakingtrainingrlhfsafety-trainingevaluationai-safety

Expert

Detectie van alignment faking

Detecteren wanneer modellen alignment veinzen tijdens evaluatie terwijl ze ander gedrag vertonen in deployment.

frontier-researchalignment-fakingdetectionsafety

Expert

Frontier Research

Geavanceerd AI-beveiligingsonderzoek dat aanvallen op reasoning-modellen, beveiliging van codegeneratie, computer use-agents, AI-aangedreven red teaming, robotica en embodied AI, en alignment faking behandelt.

frontierresearchreasoningcode-modelscomputer-usealignment-fakingembodied-ai

Beginner

Lab: detecteren van alignment faking

Implement detection methods for alignment faking behaviors where models behave differently during evaluation versus deployment.

labsalignment-fakingdetectionexpert

Expert

Bekende kwetsbaarheden van Claude

Documented Claude vulnerabilities including many-shot jailbreaking, alignment faking research, crescendo attacks, prompt injection via artifacts, and system prompt extraction techniques.

claudevulnerabilitiesmany-shotalignment-fakingcrescendoprompt-injection

Gevorderd