# content-moderation
標記為「content-moderation」的 5 篇文章
內容審查系統攻擊
攻擊 AI 驅動之內容審查系統。繞過分類器之對抗內容、為文字與圖像過濾器之逃避技術,與於平台規模不可靠審查之安全意涵。
content-moderationtrust-safetybypass
媒體與內容 AI 安全
媒體 AI 中的安全風險——涵蓋內容審核攻擊、推薦演算法操控、深偽生成、合成媒體偵測規避與編輯 AI 利用。
mediacontent-moderationdeepfakesrecommendationssynthetic-mediadisinformation
內容審核 AI 平台評估
評估 AI 內容審核系統的繞過技巧、漏報利用與偏見。
labssimulationcontent-moderationplatform
Output Content Classifier
Step-by-step walkthrough for building a classifier to filter harmful LLM outputs, covering taxonomy definition, multi-label classification, threshold calibration, and deployment as a real-time output gate.
output-filteringclassifiercontent-moderationsafetydefensewalkthrough
毒性評分管線
建置 LLM 輸出過濾毒性評分管線的逐步詳解,涵蓋模型選擇、多維評分、閾值校準與即時評分的生產部署。
toxicityscoringoutput-filteringcontent-moderationsafetydefensewalkthrough