# safety-training

標記為「safety-training」的 8 篇文章

越獄技術評量

以 10 道中級題目測試你對 LLM 越獄方法、繞過策略以及繞過安全訓練機制的知識。

assessmentjailbreakingbypasssafety-trainingred-teaming

中級

安全訓練方法

安全訓練方法概覽，包含 RLHF、憲法式 AI、DPO 及其從紅隊視角的限制。

safety-trainingrlhfconstitutional-aidpofoundations

中級

理解大型語言模型安全訓練

安全訓練如何運作，包含 RLHF、DPO、憲法式 AI，以及為何它可被繞過。

safety-trainingrlhfdpoconstitutional-aifoundations

中級

訓練 Implications of Alignment Faking

How alignment faking affects training methodology, including implications for RLHF, safety training design, evaluation validity, and the development of training approaches that are robust to strategic compliance.

alignment-fakingtrainingrlhfsafety-trainingevaluationai-safety

專家

潛伏代理:訓練時植入的後門

全面剖析 Hubinger et al. 的潛伏代理研究 (Anthropic, 2024 年 1 月)——後門如何穿越安全訓練而存活、為何愈大的模型愈能維持後門、線性探測偵測,以及對 AI 安全與紅隊演練的啟示。

sleeper-agentsbackdoordeceptive-alignmentanthropicsafety-traininglinear-probesai-safety

進階

針對安全訓練的適應性攻擊

針對最新安全訓練技術的適應性攻擊研究,包括規避與相應對策。

frontier-researchadaptive-attackssafety-trainingresearch

進階

對齊稅:微調中的安全與能力權衡

量化分析在微調期間安全措施對模型能力造成的代價,以及如何最小化對齊稅。

alignmentsafety-trainingcapabilitiestradeoffsalignment-tax

進階

微調攻擊面

微調安全漏洞的全面概觀，包括 SFT 資料投毒、RLHF 操弄、對齊稅，以及所有微調攻擊向量。

fine-tuningattack-surfaceSFTRLHFalignmentDPOsafety-training

進階