# mitigation
標記為「mitigation」的 8 篇文章
Defense & Mitigation 評估
評估涵蓋guardrails、classifiers、constitutional AI、防禦-in-depth architectures。
assessmentsdefensemitigationexam
LLM 防禦的對抗性訓練
使用對抗性訓練技術,提升 LLM 對已知攻擊模式的穩健性。
mitigationtrainingadversarialdefense
LLM 的斷路器樣式
實作在偵測到異常行為時停止 LLM 處理的斷路器樣式。
mitigationdefensellmbreakerpatternscircuit
防禦與緩解
AI 系統的防禦策略,包含護欄架構、監控與可觀測性、安全開發實務、修復對應與進階防禦技術。
defensemitigationguardrailsmonitoringsecure-developmentremediation
LLM 應用的權限分離
實作權限分離,依脈絡與使用者角色限制 LLM 可用的能力。
separationmitigationdefensellmprivilegeapps
提示詞注入金絲雀系統
在系統提示詞中部署金絲雀字串,以偵測並警示提示詞注入與萃取嘗試。
mitigationdefenseinjectioncanarypromptsystem
回應一致性檢查
對模型回應與已知事實實施一致性檢查以偵測操縱。
mitigationcheckingdefenseconsistencyresponse
符元歸因監控
監控模型輸出中的符元歸因,以偵測對抗性輸入對生成的影響。
mitigationdefensemonitoringtokenattribution