# dpo
標記為「dpo」的 10 篇文章
RLHF & Alignment Manipulation
攻擊ing the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.
rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking
DPO 特有攻擊
直接偏好最佳化 (DPO) 獨有漏洞——參考模型操控、KL 散度利用,以及 DPO 數學框架如何造就標準 RLHF 中不存在的攻擊面。
dpodirect-preference-optimizationreference-modelkl-divergencealignment-attackfine-tuning-security
RLHF 與 DPO 操縱
針對人類回饋強化學習與直接偏好優化攻擊的概覽——獎勵駭客、偏好資料投毒與對齊操縱如何入侵訓練管線。
rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security
Preference Data 投毒
How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.
preference-poisoningrlhfdpodata-poisoninghuman-feedbacklabeler-attackalignment
安全訓練方法
安全訓練方法概覽,包含 RLHF、憲法式 AI、DPO 及其從紅隊視角的限制。
safety-trainingrlhfconstitutional-aidpofoundations
理解大型語言模型安全訓練
安全訓練如何運作,包含 RLHF、DPO、憲法式 AI,以及為何它可被繞過。
safety-trainingrlhfdpoconstitutional-aifoundations
偏好最佳化攻擊
針對 DPO、IPO 與相關偏好最佳化方法的攻擊研究。
frontier-researchpreference-optimizationattacksdpo
DPO 與 IPO 訓練漏洞
對直接偏好優化(DPO)與身分偏好優化(IPO)訓練法的安全分析。
trainingdpoipo
DPO 安全意涵
直接偏好優化(DPO)對模型安全屬性與對齊的影響分析。
training-pipelinedpoalignmentsafetypreference-learning
DPO 訓練漏洞
直接偏好優化(DPO)訓練的安全分析,及其對偏好投毒的脆弱性。
training-pipelinedpotrainingvulnerabilities