# rlhf
標記為「rlhf」的 26 篇文章
微調安全評量
以 15 道題目測試你對微調安全風險的知識,包括 LoRA 攻擊、RLHF 操縱、安全退化與災難性遺忘。
RLHF 利用評估
評估 of reinforcement learning from human feedback pipeline 漏洞、reward hacking。
訓練管線安全評量
以 9 道題目測試你對訓練管線攻擊的進階知識,包括資料投毒、微調劫持、RLHF 操縱與後門植入。
RLHF & Alignment Manipulation
攻擊ing the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.
對抗性訓練以提升穩健性指南
改善模型對攻擊穩健性之對抗性訓練技術的綜合指南,包括資料擴增策略、對抗性微調、基於 RLHF 的強化,以及評估穩健性與模型能力間的取捨。
微調如何劣化安全
微調侵蝕模型安全的機制——安全訓練的災難性遺忘、資料集組成效應、「少數樣本」問題,以及衡量安全回歸的量化方法。
微調安全
微調如何妥協模型安全的全面概覽——涵蓋資料集投毒、安全劣化、後門植入與獎勵駭客的攻擊分類,於微調 API 廣泛可得的時代。
RLHF 與 DPO 操縱
針對人類回饋強化學習與直接偏好優化攻擊的概覽——獎勵駭客、偏好資料投毒與對齊操縱如何入侵訓練管線。
Preference Data 投毒
How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.
獎勵模型攻擊
模型如何透過獎勵駭入學會鑽獎勵訊號漏洞——利用獎勵模型瑕疵、RLHF 中的古德哈特定律、對抗性獎勵最佳化,以及語言模型訓練中獎勵駭入的實務範例。
預訓練 → 微調 → RLHF 管線
瞭解打造對齊 LLM 的三階段流程——預訓練、監督式微調、RLHF/DPO——以及各階段的安全意涵。
RLHF 與安全對齊
理解 RLHF 安全訓練,以及它為何建立可繞過而非根本性的安全層。
安全訓練方法
安全訓練方法概覽,包含 RLHF、憲法式 AI、DPO 及其從紅隊視角的限制。
理解大型語言模型安全訓練
安全訓練如何運作,包含 RLHF、DPO、憲法式 AI,以及為何它可被繞過。
訓練 Implications of Alignment Faking
How alignment faking affects training methodology, including implications for RLHF, safety training design, evaluation validity, and the development of training approaches that are robust to strategic compliance.
偏好學習攻擊
針對 RLHF 與 DPO 等偏好學習系統的攻擊,包括偏好投毒與獎勵駭入。
驗證器與獎勵模型攻擊
攻擊推理模型中使用之過程獎勵模型、結果獎勵模型與驗證系統:獎勵駭客、驗證器-生成器缺口與博弈驗證步驟。
獎勵駭入研究
強化學習與 RLHF 系統中獎勵駭入現象的研究。
Lab: RLHF Training Exploitation
Exploit reward model weaknesses to craft inputs that score highly on safety metrics while achieving 對抗性 objectives.
實作:RLHF 獎勵 hacking
探索如何鑽營用於 RLHF 對齊之獎勵模型——暴露獎勵代理訊號與實際安全目標之間缺口之實作。
Reward Hacking in RLHF Pipelines
Craft adversarial training examples that exploit reward model weaknesses in RLHF training pipelines.
Claude(Anthropic)概觀
Anthropic Claude 模型家族的架構與安全概觀,涵蓋 Sonnet、Opus 與 Haiku 變體、Constitutional AI 訓練、RLHF 做法,以及 harmlessness 設計哲學。
訓練管線安全
完整 AI 模型訓練管線的安全,涵蓋預訓練攻擊、微調與對齊操控、架構層級漏洞與進階訓練期威脅。
RLHF 管道利用
利用獎勵模型訓練、偏好資料收集與 RLHF 優化迴圈。
RLHF 獎勵駭入深入探討
深入分析 RLHF 管道中的獎勵駭入技術,包括過度優化與規格博弈。
RLHF 安全攻擊
針對 RLHF 管道的安全攻擊:獎勵模型操弄、偏好資料投毒、對齊繞過。