# constitutional-classifiers

標記為「constitutional-classifiers」的 3 篇文章

憲法式分類器

Anthropic 的憲法式分類器防禦:使用憲法式 AI 原則訓練承受 3,000+ 小時對抗性紅隊演練的輸入/輸出分類器。

作為 LLM 應用之外部安全護欄的憲法式分類器研究。

發展techniques to bypass Anthropic-style constitutional classifiers through adversarial input crafting.