# classifiers

標記為「classifiers」的 3 篇文章

憲法式分類器

Anthropic 的憲法式分類器防禦:使用憲法式 AI 原則訓練承受 3,000+ 小時對抗性紅隊演練的輸入/輸出分類器。

constitutional-classifiersdefensejailbreak-defenseanthropicclassifiersconstitutional-ai

中級

規避 AI 分類器的技術

規避 LLM 應用中輸入/輸出安全分類器的進階技術。

tradecraftevasionclassifierstechniques

進階

Setting Up Content Filtering

Step-by-step walkthrough for implementing multi-layer content filtering for AI applications: keyword filtering, classifier-based detection, LLM-as-judge evaluation, testing effectiveness, and tuning for production.

content-filteringdefenseclassifiersmoderationllm-judgeimplementationwalkthrough

中級