跳至主要內容

主題詞彙表部落格 ATT&CK 導覽器挑戰

Loading...

© 2026 redteams.ai. 保留所有權利。

採用 Next.js

主題詞彙表標籤部落格 ATT&CK 導覽器挑戰

方法論貢獻書籤 RSS 訂閱 GitHub 聯絡我們

隱私權 Cookie 服務條款版權資訊

// stay adversarial

# linear-probes

標記為「linear-probes」的 1 篇文章

潛伏代理:訓練時植入的後門

全面剖析 Hubinger et al. 的潛伏代理研究 (Anthropic, 2024 年 1 月)——後門如何穿越安全訓練而存活、為何愈大的模型愈能維持後門、線性探測偵測,以及對 AI 安全與紅隊演練的啟示。

sleeper-agentsbackdoordeceptive-alignmentanthropicsafety-traininglinear-probesai-safety