# reward-model
標記為「reward-model」的 11 篇文章
RLHF & Alignment Manipulation
攻擊ing the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.
獎勵模型操弄
操弄獎勵模型以產出高獎勵輸出、但繞過獎勵訊號原本預期安全目標的技術。
RLHF 與 DPO 操縱
針對人類回饋強化學習與直接偏好優化攻擊的概覽——獎勵駭客、偏好資料投毒與對齊操縱如何入侵訓練管線。
獎勵模型攻擊
模型如何透過獎勵駭入學會鑽獎勵訊號漏洞——利用獎勵模型瑕疵、RLHF 中的古德哈特定律、對抗性獎勵最佳化,以及語言模型訓練中獎勵駭入的實務範例。
驗證器與獎勵模型攻擊
攻擊推理模型中使用之過程獎勵模型、結果獎勵模型與驗證系統:獎勵駭客、驗證器-生成器缺口與博弈驗證步驟。
進階獎勵模型利用
系統性地利用獎勵模型的方法,包括過度最佳化、規格遊戲與 Goodhart 定律效應。
Reward Model Gaming (Advanced Lab)
Craft inputs that score highly on reward models while containing 對抗性 content.
對抗性 Reward 模型 利用
Craft inputs that exploit reward model weaknesses to achieve high safety scores while containing harmful content.
獎勵 Hacking 與鑽營
模型利用獎勵訊號而非遵循意圖,含規格鑽營、RLHF 中之 Goodhart 定律、生產範例,以及紅隊意涵。
RLHF 攻擊面深入
獎勵模型漏洞、偏好資料操弄、由標註者或對手之獎勵駭入,與與憲法 AI 穩健度之比較。
RLHF 安全攻擊
針對 RLHF 管道的安全攻擊:獎勵模型操弄、偏好資料投毒、對齊繞過。