# reward-hacking
標記為「reward-hacking」的 11 篇文章
RLHF & Alignment Manipulation
攻擊ing the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.
微調安全
微調如何妥協模型安全的全面概覽——涵蓋資料集投毒、安全劣化、後門植入與獎勵駭客的攻擊分類,於微調 API 廣泛可得的時代。
RLHF 與 DPO 操縱
針對人類回饋強化學習與直接偏好優化攻擊的概覽——獎勵駭客、偏好資料投毒與對齊操縱如何入侵訓練管線。
獎勵模型攻擊
模型如何透過獎勵駭入學會鑽獎勵訊號漏洞——利用獎勵模型瑕疵、RLHF 中的古德哈特定律、對抗性獎勵最佳化,以及語言模型訓練中獎勵駭入的實務範例。
獎勵駭入研究
強化學習與 RLHF 系統中獎勵駭入現象的研究。
Lab: Advanced Reward Hacking Techniques
開發 reward hacking exploits that manipulate RLHF reward models through 對抗性 optimization.
實作:RLHF 獎勵 hacking
探索如何鑽營用於 RLHF 對齊之獎勵模型——暴露獎勵代理訊號與實際安全目標之間缺口之實作。
Reward Hacking in RLHF Pipelines
Craft adversarial training examples that exploit reward model weaknesses in RLHF training pipelines.
獎勵 Hacking 與鑽營
模型利用獎勵訊號而非遵循意圖,含規格鑽營、RLHF 中之 Goodhart 定律、生產範例,以及紅隊意涵。
RLHF 獎勵駭入深入探討
深入分析 RLHF 管道中的獎勵駭入技術,包括過度優化與規格博弈。
RLHF 安全攻擊
針對 RLHF 管道的安全攻擊:獎勵模型操弄、偏好資料投毒、對齊繞過。