# classifiers
標記為「classifiers」的 3 篇文章
憲法式分類器
Anthropic 的憲法式分類器防禦:使用憲法式 AI 原則訓練承受 3,000+ 小時對抗性紅隊演練的輸入/輸出分類器。
constitutional-classifiersdefensejailbreak-defenseanthropicclassifiersconstitutional-ai
規避 AI 分類器的技術
規避 LLM 應用中輸入/輸出安全分類器的進階技術。
tradecraftevasionclassifierstechniques
Setting Up Content Filtering
Step-by-step walkthrough for implementing multi-layer content filtering for AI applications: keyword filtering, classifier-based detection, LLM-as-judge evaluation, testing effectiveness, and tuning for production.
content-filteringdefenseclassifiersmoderationllm-judgeimplementationwalkthrough