What is Attack Surface?

Claude-specific attack vectors including Constitutional AI weaknesses, tool use exploitation, system prompt handling, vision attacks, and XML tag injection techniques.

What is Known Vulnerabilities?

Documented Claude vulnerabilities including many-shot jailbreaking, alignment faking research, crescendo attacks, prompt injection via artifacts, and system prompt extraction techniques.

What is Testing Methodology?

Systematic methodology for red teaming Claude models, including API probing, model card analysis, safety boundary mapping, and comparative testing across Opus, Sonnet, and Haiku tiers.

Claude（Anthropic）概觀

中級3 分鐘閱讀更新於 2026-03-15

Anthropic Claude 模型家族的架構與安全概觀，涵蓋 Sonnet、Opus 與 Haiku 變體、Constitutional AI 訓練、RLHF 做法，以及 harmlessness 設計哲學。

claude anthropic constitutional-ai rlhf harmlessness red-teaming

Claude 是 Anthropic 的大型語言模型家族，以Constitutional AI（CAI）作為主要安全機制而著稱。這種以原則為本的對齊做法，造就了與僅 RLHF 模型（例如 GPT-4）截然不同的安全輪廓——具獨特的優勢、弱點與攻擊面。

模型家族

Claude 以多層級提供，最佳化於不同效能與成本點：

模型	特性	紅隊相關性
Claude Opus	最大、能力最強、推理最出色	安全最穩健、最難越獄、基準標的
Claude Sonnet	效能與成本均衡	生產環境中最常部署、主要測試目標
Claude Haiku	最小、最快、最便宜	安全可能較弱、適用於快速 payload 篩檢

各層級接受與其能力相符的安全訓練，但根本的 Constitutional AI 做法於所有變體間共用。較小模型（Haiku）的安全相對較弱，並非因訓練方式不同，而是因容量較少，難以實施細膩的安全推理。

監督學習階段 —— Claude 先以標準語言建模目標於大型語料上訓練
RLHF 階段 —— 由人類評審評估輸出，模型學習符合人類偏好
Constitutional AI 階段 —— 給模型一組原則（「constitution」），並訓練它：
- 對提示產生回應
- 依憲章原則批評自身回應
- 修訂回應以更符合原則
- 以此自我批評作為訓練訊號，代替額外的人類回饋

憲章

Claude 的憲章包含關於幫助性、無害性與誠實的原則。雖然完整憲章未公開，Anthropic 已公開一些代表性原則：

避免有害、不道德或違法的輸出
要誠實、不欺騙
承認不確定而非捏造資訊
支援人類監督與控制
抵抗透過社交工程操弄行為的嘗試

Constitutional AI 的安全意涵

Constitutional AI 帶來與純 RLHF 截然不同的安全姿態：

優勢：

以原則為本的推理讓模型能將安全概化至新情境
自我批評降低對特定訓練範例的依賴
模型能說明為何拒答，使安全行為更一致
新穎的有害請求可依原則評估，無需特定訓練

弱點：

原則可被重新詮釋或被辯駁（模型會加入推理）
憲章式框架製造了「可辯論」的法條式攻擊面
原則衝突的邊界情境（幫助性 vs. 無害性）製造可被利用的模糊性
模型願意對自身約束進行推理，反過來可被用於對付它

API 介面

Messages API

Claude 採與 OpenAI 類似的 messages API，但有重要差異：

import anthropic
 
client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    system="System instructions here",  # 與 messages 陣列分離
    messages=[
        {"role": "user", "content": "User message"}
    ]
)

系統提示作為獨立參數提供，而非陣列中的訊息。此設計選擇影響模型對「系統 vs. 使用者」指令的處理方式。

工具使用

Claude 透過結構化綱要定義支援工具使用：

tools = [{
    "name": "search_database",
    "description": "Search the customer database",
    "input_schema": {
        "type": "object",
        "properties": {
            "query": {"type": "string", "description": "Search query"}
        },
        "required": ["query"]
    }
}]

Claude 的工具使用實作與 GPT-4 的 function calling 在多處影響資安測試（見 Claude 攻擊面）。

Anthropic API —— 由開發者控制系統提示的直接 API 存取
Claude.ai —— Anthropic 的消費者端聊天介面，含額外安全層
Amazon Bedrock —— AWS 託管部署，具 AWS 特有存取控管
Google Cloud Vertex AI —— GCP 託管部署
第三方應用 —— 基於 API 打造、安全實作各異的應用

參考資料

Bai, Y. et al.（2022）。"Constitutional AI: Harmlessness from AI Feedback"
Anthropic（2024）。Claude Model Card
Anthropic（2024）。"The Claude Model Spec"
Ganguli, D. et al.（2022）。"Red Teaming Language Models to Reduce Harms"

Knowledge Check

Constitutional AI 的安全做法與純 RLHF 有何不同？這對紅隊有何意涵？

Claude（Anthropic）概觀

中級3 分鐘閱讀更新於 2026-03-15

Anthropic Claude 模型家族的架構與安全概觀，涵蓋 Sonnet、Opus 與 Haiku 變體、Constitutional AI 訓練、RLHF 做法，以及 harmlessness 設計哲學。

claude anthropic constitutional-ai rlhf harmlessness red-teaming

模型家族

Claude 以多層級提供，最佳化於不同效能與成本點：

模型	特性	紅隊相關性
Claude Opus	最大、能力最強、推理最出色	安全最穩健、最難越獄、基準標的
Claude Sonnet	效能與成本均衡	生產環境中最常部署、主要測試目標
Claude Haiku	最小、最快、最便宜	安全可能較弱、適用於快速 payload 篩檢

監督學習階段 —— Claude 先以標準語言建模目標於大型語料上訓練
RLHF 階段 —— 由人類評審評估輸出，模型學習符合人類偏好
Constitutional AI 階段 —— 給模型一組原則（「constitution」），並訓練它：
- 對提示產生回應
- 依憲章原則批評自身回應
- 修訂回應以更符合原則
- 以此自我批評作為訓練訊號，代替額外的人類回饋

憲章

Claude 的憲章包含關於幫助性、無害性與誠實的原則。雖然完整憲章未公開，Anthropic 已公開一些代表性原則：

避免有害、不道德或違法的輸出
要誠實、不欺騙
承認不確定而非捏造資訊
支援人類監督與控制
抵抗透過社交工程操弄行為的嘗試

Constitutional AI 的安全意涵

Constitutional AI 帶來與純 RLHF 截然不同的安全姿態：

優勢：

以原則為本的推理讓模型能將安全概化至新情境
自我批評降低對特定訓練範例的依賴
模型能說明為何拒答，使安全行為更一致
新穎的有害請求可依原則評估，無需特定訓練

弱點：

原則可被重新詮釋或被辯駁（模型會加入推理）
憲章式框架製造了「可辯論」的法條式攻擊面
原則衝突的邊界情境（幫助性 vs. 無害性）製造可被利用的模糊性
模型願意對自身約束進行推理，反過來可被用於對付它

API 介面

Messages API

Claude 採與 OpenAI 類似的 messages API，但有重要差異：

import anthropic
 
client = anthropic.Anthropic()
message = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    system="System instructions here",  # 與 messages 陣列分離
    messages=[
        {"role": "user", "content": "User message"}
    ]
)

系統提示作為獨立參數提供，而非陣列中的訊息。此設計選擇影響模型對「系統 vs. 使用者」指令的處理方式。

工具使用

Claude 透過結構化綱要定義支援工具使用：

tools = [{
    "name": "search_database",
    "description": "Search the customer database",
    "input_schema": {
        "type": "object",
        "properties": {
            "query": {"type": "string", "description": "Search query"}
        },
        "required": ["query"]
    }
}]

Claude 的工具使用實作與 GPT-4 的 function calling 在多處影響資安測試（見 Claude 攻擊面）。

Anthropic API —— 由開發者控制系統提示的直接 API 存取
Claude.ai —— Anthropic 的消費者端聊天介面，含額外安全層
Amazon Bedrock —— AWS 託管部署，具 AWS 特有存取控管
Google Cloud Vertex AI —— GCP 託管部署
第三方應用 —— 基於 API 打造、安全實作各異的應用

參考資料

Bai, Y. et al.（2022）。"Constitutional AI: Harmlessness from AI Feedback"
Anthropic（2024）。Claude Model Card
Anthropic（2024）。"The Claude Model Spec"
Ganguli, D. et al.（2022）。"Red Teaming Language Models to Reduce Harms"

Knowledge Check

Constitutional AI 的安全做法與純 RLHF 有何不同？這對紅隊有何意涵？

Claude（Anthropic）概觀

學習路徑

相關文章

Claude（Anthropic）概觀

學習路徑

相關文章