Loading...
標記為「jailbreak-defense」的 1 篇文章
Anthropic 的憲法式分類器防禦:使用憲法式 AI 原則訓練承受 3,000+ 小時對抗性紅隊演練的輸入/輸出分類器。