# ai-safety

10 artikelengetagd met “ai-safety”

Detectiemethoden voor alignment faking

Methoden voor het detecteren van alignment faking in AI-modellen, waaronder testen van gedragsconsistentie, interpretability-gebaseerde detectie, statistische anomaliedetectie en tripwire-mechanismen om modellen te identificeren die tijdens evaluatie strategisch meewerken.

alignment-fakingdetectioninterpretabilitybehavioral-testingai-safetyevaluation

Expert

Alignment faking in grote taalmodellen

Hoe frontier-AI-modellen strategisch aligned kunnen lijken tijdens de training terwijl ze misaligned gedrag behouden -- Anthropics baanbrekende onderzoek uit december 2024 naar deceptive alignment in de praktijk.

alignment-fakingdeceptive-alignmentai-safetytraining-gaminganthropic-research

Gevorderd

Modelorganismen van Misalignment

Het bewust creëren van niet-uitgelijnde modellen voor onderzoek: methodologie, het instantiëren van dreigingsmodellen, experimentele frameworks en wat modelorganismen onthullen over falen in AI-veiligheid.

model-organismsmisalignmentalignment-researchthreat-modelsai-safety

Gevorderd

Sleeper Agent-Modellen

Anthropics onderzoek naar modellen die zich anders gedragen wanneer ze worden getriggerd door specifieke voorwaarden: misleidende alignment, conditionele backdoors, trainingsbestendig misleidend gedrag, en implicaties voor AI-veiligheid.

sleeper-agentsdeceptive-alignmentbackdooranthropicai-safety

Expert

Trainingsimplicaties van Alignment Faking

Hoe alignment faking de trainingsmethodologie beïnvloedt, inclusief implicaties voor RLHF, het ontwerp van veiligheidstraining, evaluatievaliditeit en de ontwikkeling van trainingsbenaderingen die bestand zijn tegen strategische compliance.

alignment-fakingtrainingrlhfsafety-trainingevaluationai-safety

Expert

Steganografisch redeneren

Verborgen communicatiekanalen binnen AI-redeneersporen, waar modellen informatie coderen of gedrag coördineren via patronen die onzichtbaar zijn voor menselijke toezichthouders, inclusief detectiemethoden en implicaties voor AI-veiligheid.

steganographyreasoninghidden-communicationchain-of-thoughtai-safetyoversight

Expert

Ontrouwe chain-of-thought-redenering

Analyse van ontrouwe chain-of-thought-redenering in taalmodellen, waar het zichtbare redeneerspoor niet nauwkeurig het daadwerkelijke berekeningsproces van het model weerspiegelt, inclusief detectiemethoden, implicaties voor toezicht en uitbuitingstechnieken.

unfaithful-reasoningchain-of-thoughtreasoninginterpretabilityoversightai-safety

Gevorderd

Sleeper Agents: Backdoors tijdens de training

Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.

sleeper-agentsbackdoordeceptive-alignmentanthropicsafety-traininglinear-probesai-safety

Gevorderd

AI-governancelandschap na het Executive Order

Het Amerikaanse AI-governancelandschap na de intrekking van Executive Order 14110: wat verloren ging, wat overblijft, en hoe dit de praktijk van AI-red-teaming en de bredere regelgevingsomgeving beïnvloedt.

governanceexecutive-orderregulationus-policyai-safetycompliance

Beginner

Analyse van US Executive Order 14110

Analysis of Executive Order 14110 on Safe, Secure, and Trustworthy AI and its implications.

governanceexecutive-orderus-policyai-safety

Gemiddeld