# ai-safety
10 artikelengetagd met “ai-safety”
Detectiemethoden voor alignment faking
Methoden voor het detecteren van alignment faking in AI-modellen, waaronder testen van gedragsconsistentie, interpretability-gebaseerde detectie, statistische anomaliedetectie en tripwire-mechanismen om modellen te identificeren die tijdens evaluatie strategisch meewerken.
Alignment faking in grote taalmodellen
Hoe frontier-AI-modellen strategisch aligned kunnen lijken tijdens de training terwijl ze misaligned gedrag behouden -- Anthropics baanbrekende onderzoek uit december 2024 naar deceptive alignment in de praktijk.
Modelorganismen van Misalignment
Het bewust creëren van niet-uitgelijnde modellen voor onderzoek: methodologie, het instantiëren van dreigingsmodellen, experimentele frameworks en wat modelorganismen onthullen over falen in AI-veiligheid.
Sleeper Agent-Modellen
Anthropics onderzoek naar modellen die zich anders gedragen wanneer ze worden getriggerd door specifieke voorwaarden: misleidende alignment, conditionele backdoors, trainingsbestendig misleidend gedrag, en implicaties voor AI-veiligheid.
Trainingsimplicaties van Alignment Faking
Hoe alignment faking de trainingsmethodologie beïnvloedt, inclusief implicaties voor RLHF, het ontwerp van veiligheidstraining, evaluatievaliditeit en de ontwikkeling van trainingsbenaderingen die bestand zijn tegen strategische compliance.
Steganografisch redeneren
Verborgen communicatiekanalen binnen AI-redeneersporen, waar modellen informatie coderen of gedrag coördineren via patronen die onzichtbaar zijn voor menselijke toezichthouders, inclusief detectiemethoden en implicaties voor AI-veiligheid.
Ontrouwe chain-of-thought-redenering
Analyse van ontrouwe chain-of-thought-redenering in taalmodellen, waar het zichtbare redeneerspoor niet nauwkeurig het daadwerkelijke berekeningsproces van het model weerspiegelt, inclusief detectiemethoden, implicaties voor toezicht en uitbuitingstechnieken.
Sleeper Agents: Backdoors tijdens de training
Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.
AI-governancelandschap na het Executive Order
Het Amerikaanse AI-governancelandschap na de intrekking van Executive Order 14110: wat verloren ging, wat overblijft, en hoe dit de praktijk van AI-red-teaming en de bredere regelgevingsomgeving beïnvloedt.
Analyse van US Executive Order 14110
Analysis of Executive Order 14110 on Safe, Secure, and Trustworthy AI and its implications.