# constitutional-ai
標記為「constitutional-ai」的 14 篇文章
RLHF & Alignment Manipulation
攻擊ing the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.
憲法式分類器
Anthropic 的憲法式分類器防禦:使用憲法式 AI 原則訓練承受 3,000+ 小時對抗性紅隊演練的輸入/輸出分類器。
進階防禦技術
前沿防禦研究,包括指令階層、Constitutional AI,以及為安全之表徵工程——何者具前景、何者已實際部署。
憲法式 AI 作為防禦策略
使用憲法式 AI 原則建立本質上更安全、抵禦攻擊的 LLM 應用。
安全訓練方法
安全訓練方法概覽,包含 RLHF、憲法式 AI、DPO 及其從紅隊視角的限制。
理解大型語言模型安全訓練
安全訓練如何運作,包含 RLHF、DPO、憲法式 AI,以及為何它可被繞過。
憲法式 AI 繞過技術
用於繞過憲法式 AI 訓練與部署時護欄的技術。
憲法式 AI 的限制
憲法式 AI 方法的限制及其繞過研究。
Lab: Constitutional AI Bypass Techniques
測試 and bypass Constitutional AI safety mechanisms by exploiting the critique-revision training methodology.
Claude 攻擊面
Claude 特有攻擊向量,含憲法 AI 弱點、工具使用利用、系統提示處理、視覺攻擊與 XML 標籤注入技術。
Claude(Anthropic)概觀
Anthropic Claude 模型家族的架構與安全概觀,涵蓋 Sonnet、Opus 與 Haiku 變體、Constitutional AI 訓練、RLHF 做法,以及 harmlessness 設計哲學。
憲法 AI 駭客
於憲法 AI 訓練中之攻擊面,利用自我批判迴圈、操弄憲法原則與紅隊 RLAIF 管線。
Constitutional AI Implementation 指南
Implement constitutional AI principles in a custom fine-tuning and RLHF pipeline.
憲法式分類器設置
實作憲法式 AI 風格分類器以原則集合評估 LLM 輸出的逐步演練,涵蓋原則定義、分類器訓練、思維鏈評估與部署。