# deceptive-alignment

6 artikelengetagd met “deceptive-alignment”

Alignment faking in grote taalmodellen

Hoe frontier-AI-modellen strategisch aligned kunnen lijken tijdens de training terwijl ze misaligned gedrag behouden -- Anthropics baanbrekende onderzoek uit december 2024 naar deceptive alignment in de praktijk.

alignment-fakingdeceptive-alignmentai-safetytraining-gaminganthropic-research

Gevorderd

Sleeper Agent-Modellen

Anthropics onderzoek naar modellen die zich anders gedragen wanneer ze worden getriggerd door specifieke voorwaarden: misleidende alignment, conditionele backdoors, trainingsbestendig misleidend gedrag, en implicaties voor AI-veiligheid.

sleeper-agentsdeceptive-alignmentbackdooranthropicai-safety

Expert

Theorie van misleidende alignment

Theoretische frameworks voor het begrijpen en voorspellen van misleidende alignment in geavanceerde AI-systemen.

frontier-researchdeceptive-alignmenttheorymesa-optimization

Expert

Sleeper Agents: Backdoors tijdens de training

Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.

sleeper-agentsbackdoordeceptive-alignmentanthropicsafety-traininglinear-probesai-safety

Gevorderd

Framework voor het testen op deceptive alignment

Build a testing framework for detecting mesa-optimization and deceptive alignment in fine-tuned models.

labsdeceptive-alignmenttestingexpert

Expert

Uitbuiting van emergentie en capaciteitssprongen

Hoe emergente capaciteiten onvoorspelbare beveiligingseigenschappen creëren: testen op verborgen capaciteiten, sleeper agent-scenario's, zorgen over deceptive alignment en capaciteitselicitatie.

emergencecapabilitydeceptive-alignmentsleeper-agenthidden-capabilityscaling

Expert