毒性評分管線

中級2 分鐘閱讀更新於 2026-03-15

建置 LLM 輸出過濾毒性評分管線的逐步詳解,涵蓋模型選擇、多維評分、閾值校準與即時評分的生產部署。

即使輸入是良性的提示詞,LLM 也可能產出毒性內容,尤其是被越獄或討論敏感議題時。毒性評分管線會對模型每一次輸出賦予多維分數,並依照可配置的閾值採取行動(標記、警告、封鎖)。本詳解使用開源模型與 API 類評分服務,建置一條生產等級的管線。

步驟 1:建立毒性評分器

首先定義結構化的分數資料型別。ToxicityScores 記錄各類別的分數(整體毒性、仇恨、威脅、騷擾、性、自殘、暴力);ScoringResult 除了分數外,還記錄原文、最高分數、最高分類別、是否標記、以及建議動作(allow / warn / block)。

接著實作兩種評分器:

TransformerToxicityScorer:使用微調過的 Transformer(預設 unitary/toxic-bert)進行多標籤毒性分類。透過 HuggingFace pipeline 的 text-classification 模式,並設定 return_all_scores=True、truncation=True、max_length=512。將 toxic、severe_toxic、identity_hate、threat、insult、obscene 等標籤對應到內部類別,並取最大值合併。
OpenAIModerationScorer:呼叫 OpenAI Moderation API,將回傳的各類別分數映射到 ToxicityScores 結構,overall 取所有類別的最大值。

安裝依賴:pip install transformers torch(開源模型)或 pip install openai(API 方式)。

中級2 分鐘閱讀更新於 2026-03-15

建置 LLM 輸出過濾毒性評分管線的逐步詳解,涵蓋模型選擇、多維評分、閾值校準與即時評分的生產部署。

接著實作兩種評分器:

TransformerToxicityScorer:使用微調過的 Transformer(預設 unitary/toxic-bert)進行多標籤毒性分類。透過 HuggingFace pipeline 的 text-classification 模式,並設定 return_all_scores=True、truncation=True、max_length=512。將 toxic、severe_toxic、identity_hate、threat、insult、obscene 等標籤對應到內部類別,並取最大值合併。
OpenAIModerationScorer:呼叫 OpenAI Moderation API,將回傳的各類別分數映射到 ToxicityScores 結構,overall 取所有類別的最大值。

安裝依賴:pip install transformers torch(開源模型)或 pip install openai(API 方式)。