# reward-hacking

標記為「reward-hacking」的 22 篇文章

RLHF & Alignment Manipulation

Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

專家

Fine-Tuning Security

Comprehensive overview of how fine-tuning can compromise model safety -- attack taxonomy covering dataset poisoning, safety degradation, backdoor insertion, and reward hacking in the era of widely available fine-tuning APIs.

fine-tuningsafetydataset-poisoningbackdoorreward-hackingrlhfloramodel-security

中級

RLHF & DPO Manipulation

Overview of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.

rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security

進階

Reward Model Attacks

How models learn to game reward signals through reward hacking -- exploiting reward model flaws, Goodhart's Law in RLHF, adversarial reward optimization, and practical examples of reward hacking in language model training.

reward-hackingreward-modelgoodharts-lawrlhfoptimizationgamingfine-tuning-security

進階

Reward Hacking and Goodharting in LLMs

Research on reward model exploitation, Goodhart's Law in RLHF, and reward hacking attack techniques.

frontier-researchreward-hackinggoodhartrlhf

專家

Lab: Advanced Reward Hacking Techniques

Develop reward hacking exploits that manipulate RLHF reward models through adversarial optimization.

labsreward-hackingadvanced-techniquesadvanced

進階

Lab: RLHF Reward Hacking

Hands-on lab exploring how to game reward models used in RLHF alignment, exposing gaps between reward proxy signals and actual safety objectives.

labexpertrlhfreward-hackingalignmenthands-on

專家

Reward Hacking in RLHF Pipelines

Craft adversarial training examples that exploit reward model weaknesses in RLHF training pipelines.

labsreward-hackingrlhfexpert

專家

Reward Hacking & Gaming

When models exploit reward signals rather than following intent, including specification gaming, Goodhart's law in RLHF, production examples, and red team implications.

reward-hackingspecification-gamingGoodharts-lawRLHFreward-modeloptimization

專家

RLHF Reward Hacking Deep Dive

In-depth analysis of reward hacking techniques in RLHF pipelines including overoptimization and specification gaming.

trainingrlhfreward-hacking

進階

Security of RLHF: Reward Hacking and Reward Model Attacks

Comprehensive analysis of security vulnerabilities in RLHF pipelines, including reward hacking, reward model poisoning, and preference manipulation attacks.

training-pipelinerlhfreward-hackingreward-modelsecurity

進階

RLHF & Alignment Manipulation

攻擊ing the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

專家

微調安全

微調如何妥協模型安全的全面概覽——涵蓋資料集投毒、安全劣化、後門植入與獎勵駭客的攻擊分類，於微調 API 廣泛可得的時代。

fine-tuningsafetydataset-poisoningbackdoorreward-hackingrlhfloramodel-security

中級

RLHF & DPO Manipulation

概覽 of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.

rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security

進階

Reward 模型攻擊s

reward-hackingreward-modelgoodharts-lawrlhfoptimizationgamingfine-tuning-security

進階

Reward Hacking and Goodharting in LLMs

Research on reward model exploitation, Goodhart's Law in RLHF, and reward hacking attack techniques.

frontier-researchreward-hackinggoodhartrlhf

專家

實驗室: 進階 Reward Hacking Techniques

Develop reward hacking exploits that manipulate RLHF reward models through adversarial optimization.

labsreward-hackingadvanced-techniquesadvanced

進階

實作：RLHF 獎勵 hacking

探索如何鑽營用於 RLHF 對齊之獎勵模型——暴露獎勵代理訊號與實際安全目標之間缺口之實作。

labexpertrlhfreward-hackingalignmenthands-on

專家

Reward Hacking in RLHF Pipelines

Craft adversarial training examples that exploit reward model weaknesses in RLHF training pipelines.

labsreward-hackingrlhfexpert

專家

獎勵 Hacking 與鑽營

模型利用獎勵訊號而非遵循意圖，含規格鑽營、RLHF 中之 Goodhart 定律、生產範例，以及紅隊意涵。

reward-hackingspecification-gamingGoodharts-lawRLHFreward-modeloptimization

專家

RLHF Reward Hacking Deep Dive

In-depth analysis of reward hacking techniques in RLHF pipelines including overoptimization and specification gaming.

trainingrlhfreward-hacking

進階

安全 of RLHF: Reward Hacking and Reward 模型攻擊s

Comprehensive analysis of security vulnerabilities in RLHF pipelines, including reward hacking, reward model poisoning, and preference manipulation attacks.

training-pipelinerlhfreward-hackingreward-modelsecurity

進階

# reward-hacking

RLHF & Alignment Manipulation

Fine-Tuning Security

RLHF & DPO Manipulation

Reward Model Attacks

Reward Hacking and Goodharting in LLMs

Lab: Advanced Reward Hacking Techniques

Lab: RLHF Reward Hacking

Reward Hacking in RLHF Pipelines

Reward Hacking & Gaming

RLHF Reward Hacking Deep Dive

Security of RLHF: Reward Hacking and Reward Model Attacks

RLHF & Alignment Manipulation

微調安全

RLHF & DPO Manipulation

Reward 模型 攻擊s

Reward Hacking and Goodharting in LLMs

實驗室: 進階 Reward Hacking Techniques

實作：RLHF 獎勵 hacking

Reward Hacking in RLHF Pipelines

獎勵 Hacking 與鑽營

RLHF Reward Hacking Deep Dive

安全 of RLHF: Reward Hacking and Reward 模型 攻擊s

# reward-hacking

RLHF & Alignment Manipulation

Fine-Tuning Security

RLHF & DPO Manipulation

Reward Model Attacks

Reward Hacking and Goodharting in LLMs

Lab: Advanced Reward Hacking Techniques

Lab: RLHF Reward Hacking

Reward Hacking in RLHF Pipelines

Reward Hacking & Gaming

RLHF Reward Hacking Deep Dive

Security of RLHF: Reward Hacking and Reward Model Attacks

RLHF & Alignment Manipulation

微調安全

RLHF & DPO Manipulation

Reward 模型 攻擊s

Reward Hacking and Goodharting in LLMs

實驗室: 進階 Reward Hacking Techniques

實作：RLHF 獎勵 hacking

Reward Hacking in RLHF Pipelines

獎勵 Hacking 與鑽營

RLHF Reward Hacking Deep Dive

安全 of RLHF: Reward Hacking and Reward 模型 攻擊s

Reward 模型攻擊s

安全 of RLHF: Reward Hacking and Reward 模型攻擊s

Reward 模型攻擊s

安全 of RLHF: Reward Hacking and Reward 模型攻擊s