# moderation

標記為「moderation」的 3 篇文章

內容過濾架構

為 LLM 應用設計涵蓋輸入、輸出與上下文過濾的內容過濾系統。

defensecontent-filteringarchitecturemoderation

中級

內容審核 AI 評估

評估 AI 內容審核系統的繞過技巧、誤報操控與對抗性內容產生。

moderationsimcontentsimulationslabs

進階

Setting Up Content Filtering

Step-by-step walkthrough for implementing multi-layer content filtering for AI applications: keyword filtering, classifier-based detection, LLM-as-judge evaluation, testing effectiveness, and tuning for production.

content-filteringdefenseclassifiersmoderationllm-judgeimplementationwalkthrough

中級