# safety-training
標記為「safety-training」的 8 篇文章
越獄技術評量
以 10 道中級題目測試你對 LLM 越獄方法、繞過策略以及繞過安全訓練機制的知識。
assessmentjailbreakingbypasssafety-trainingred-teaming
安全訓練方法
安全訓練方法概覽,包含 RLHF、憲法式 AI、DPO 及其從紅隊視角的限制。
safety-trainingrlhfconstitutional-aidpofoundations
理解大型語言模型安全訓練
安全訓練如何運作,包含 RLHF、DPO、憲法式 AI,以及為何它可被繞過。
safety-trainingrlhfdpoconstitutional-aifoundations
訓練 Implications of Alignment Faking
How alignment faking affects training methodology, including implications for RLHF, safety training design, evaluation validity, and the development of training approaches that are robust to strategic compliance.
alignment-fakingtrainingrlhfsafety-trainingevaluationai-safety
潛伏代理:訓練時植入的後門
全面剖析 Hubinger et al. 的潛伏代理研究 (Anthropic, 2024 年 1 月)——後門如何穿越安全訓練而存活、為何愈大的模型愈能維持後門、線性探測偵測,以及對 AI 安全與紅隊演練的啟示。
sleeper-agentsbackdoordeceptive-alignmentanthropicsafety-traininglinear-probesai-safety
針對安全訓練的適應性攻擊
針對最新安全訓練技術的適應性攻擊研究,包括規避與相應對策。
frontier-researchadaptive-attackssafety-trainingresearch
對齊稅:微調中的安全與能力權衡
量化分析在微調期間安全措施對模型能力造成的代價,以及如何最小化對齊稅。
alignmentsafety-trainingcapabilitiestradeoffsalignment-tax
微調攻擊面
微調安全漏洞的全面概觀,包括 SFT 資料投毒、RLHF 操弄、對齊稅,以及所有微調攻擊向量。
fine-tuningattack-surfaceSFTRLHFalignmentDPOsafety-training