跳至主要內容
redteams
.ai
搜尋...
主題
詞彙表
部落格
ATT&CK 導覽器
挑戰
繁體中文
Loading...
所有標籤
#
safety-classifiers
標記為「safety-classifiers」的 1 篇文章
對齊內部機制與繞過原語
RLHF、DPO 與 CAI 訓練管線、安全分類器架構、拒絕機制分類法,以及用於對齊繞過的表示工程。
alignment
RLHF
DPO
safety-classifiers
refusal
representation-engineering
專家