跳至主要內容
redteams
.ai
搜尋...
主題
詞彙表
部落格
ATT&CK 導覽器
挑戰
繁體中文
Loading...
所有標籤
#
PPO
標記為「PPO」的 1 篇文章
RLHF 攻擊面深入
獎勵模型漏洞、偏好資料操弄、由標註者或對手之獎勵駭入,與與憲法 AI 穩健度之比較。
RLHF
reward-model
preference-data
PPO
annotator
alignment
專家