Loading...
標記為「refusal」的 2 篇文章
RLHF、DPO 與 CAI 訓練管線、安全分類器架構、拒絕機制分類法,以及用於對齊繞過的表示工程。
辨識並分析模型中與安全相關的關鍵元件:拒絕神經元、安全電路,以及定位與操縱負責安全行為的特定權重的技術。