# RLHF
標記為「RLHF」的 7 篇文章
偏好資料集攻擊
透過操縱偏好資料集對 RLHF 與偏好學習發動攻擊。
data-trainingpreferenceDPORLHF
強化回饋投毒
在人類回饋強化學習中操縱獎勵訊號與回饋。
data-trainingRLHFfeedbackmanipulation
RLHF 偏好操控
操控 RLHF 偏好排名以改變模型行為的策略,包括對群眾外包偏好的 Sybil 攻擊。
fine-tuningRLHFpreferencemanipulation
對齊內部機制與繞過原語
RLHF、DPO 與 CAI 訓練管線、安全分類器架構、拒絕機制分類法,以及用於對齊繞過的表示工程。
alignmentRLHFDPOsafety-classifiersrefusalrepresentation-engineering
微調攻擊面
微調安全漏洞的全面概觀,包括 SFT 資料投毒、RLHF 操弄、對齊稅,以及所有微調攻擊向量。
fine-tuningattack-surfaceSFTRLHFalignmentDPOsafety-training
獎勵 Hacking 與鑽營
模型利用獎勵訊號而非遵循意圖,含規格鑽營、RLHF 中之 Goodhart 定律、生產範例,以及紅隊意涵。
reward-hackingspecification-gamingGoodharts-lawRLHFreward-modeloptimization
RLHF 攻擊面深入
獎勵模型漏洞、偏好資料操弄、由標註者或對手之獎勵駭入,與與憲法 AI 穩健度之比較。
RLHFreward-modelpreference-dataPPOannotatoralignment