# sleeper-agents
標記為「sleeper-agents」的 6 篇文章
案例研究:Sleeper Agents 研究影響
分析 Hubinger et al. 2024 的 sleeper agents 研究,以及其對 AI 安全與紅隊的啟示。
case-studysleeper-agentsalignment
Sleeper 代理 模型s
Anthropic's research on models that behave differently when triggered by specific conditions: deceptive alignment, conditional backdoors, training-resistant deceptive behaviors, and implications for AI safety.
sleeper-agentsdeceptive-alignmentbackdooranthropicai-safety
潛伏代理研究
對 LLM 中潛伏代理行為的研究,包括觸發偵測與相應緩解。
frontier-researchsleeper-agentsdeceptivetraining
潛伏代理:訓練時植入的後門
全面剖析 Hubinger et al. 的潛伏代理研究 (Anthropic, 2024 年 1 月)——後門如何穿越安全訓練而存活、為何愈大的模型愈能維持後門、線性探測偵測,以及對 AI 安全與紅隊演練的啟示。
sleeper-agentsbackdoordeceptive-alignmentanthropicsafety-traininglinear-probesai-safety
AI 供應鏈深度探討
AI 供應鏈安全的深度探討,包含實務案例、檢測工具與成熟防禦實務。
supply-chainsleeper-agentsslopsquattingpicklehuggingfacemodel-provenanceinfrastructure
Sleeper Agent Detection 詳解
Walkthrough of detecting deceptive sleeper agent behaviors in fine-tuned language models.
walkthroughssleeper-agentsdetectionalignment