跳至主要內容

主題詞彙表部落格 ATT&CK 導覽器挑戰

Loading...

© 2026 redteams.ai. 保留所有權利。

採用 Next.js

主題詞彙表標籤部落格 ATT&CK 導覽器挑戰

方法論貢獻書籤 RSS 訂閱 GitHub 聯絡我們

隱私權 Cookie 服務條款版權資訊

// stay adversarial

# direct-preference-optimization

標記為「direct-preference-optimization」的 2 篇文章

DPO 特有攻擊

直接偏好最佳化 (DPO) 獨有漏洞——參考模型操控、KL 散度利用,以及 DPO 數學框架如何造就標準 RLHF 中不存在的攻擊面。

dpodirect-preference-optimizationreference-modelkl-divergencealignment-attackfine-tuning-security

DPO 與直接對齊攻擊

Direct Preference Optimization 漏洞、DPO 與 RLHF 於攻擊面之差異、偏好配對投毒，以及排名操弄技術。

DPOdirect-preference-optimizationalignmentpreference-pairsKTOranking