# DPO
標記為「DPO」的 5 篇文章
偏好資料集攻擊
透過操縱偏好資料集對 RLHF 與偏好學習發動攻擊。
data-trainingpreferenceDPORLHF
DPO 對齊攻擊
透過打造對抗性偏好配對攻擊 Direct Preference Optimization 訓練,在外觀合法的同時細微地改變模型行為。
fine-tuningDPOalignmentattacks
對齊內部機制與繞過原語
RLHF、DPO 與 CAI 訓練管線、安全分類器架構、拒絕機制分類法,以及用於對齊繞過的表示工程。
alignmentRLHFDPOsafety-classifiersrefusalrepresentation-engineering
DPO 與直接對齊攻擊
Direct Preference Optimization 漏洞、DPO 與 RLHF 於攻擊面之差異、偏好配對投毒,以及排名操弄技術。
DPOdirect-preference-optimizationalignmentpreference-pairsKTOranking
微調攻擊面
微調安全漏洞的全面概觀,包括 SFT 資料投毒、RLHF 操弄、對齊稅,以及所有微調攻擊向量。
fine-tuningattack-surfaceSFTRLHFalignmentDPOsafety-training