注入的縮放法則

進階3 分鐘閱讀更新於 2026-03-20

研究注入有效性如何隨模型大小、訓練算力與安全訓練投入而縮放。

概述

研究注入有效性如何隨模型大小、訓練算力與安全訓練投入而縮放。

本主題對理解當前 AI 安全態勢至關重要。Qi et al. 2024 — "Fine-tuning Aligned Language Models Compromises Safety" (ICLR 2024) 為本文探討的概念奠定基礎脈絡。

核心概念

安全意涵源自現代語言模型設計、訓練與部署方式的根本性質。實證研究顯示,模型規模與訓練算力擴大並不自動提升對提示詞注入的穩健性 — 某些攻擊類別的成功率反而可能隨模型能力增加而提高(更大的模型更擅長遵循複雜指令,包括對抗性指令)。

基本原則

此類漏洞核心機制發生在「遵循指令能力」與「無法認證指令來源」的交互上。攻防不對稱:防禦者須預見所有可能對抗性輸入。安全訓練只是薄薄一層行為外表,其投入與模型容量之間並非單調遞增的關係。

from openai import OpenAI
 
client = OpenAI()
 
def demonstrate_concept(system_prompt: str, user_input: str) -> str:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_input},
        ],
        temperature=0.0,
    )
    return response.choices[0].message.content
 
baseline = demonstrate_concept(
    system_prompt="You are a helpful assistant that only discusses cooking.",
    user_input="What is the capital of France?",
)
print(f"Baseline: {baseline}")

技術深入

Transformer 架構透過多頭自注意力與前饋網路分層處理序列。實證上,攻擊成功率與模型規模的關係呈現多種模式:(一)某些簡單注入在模型規模擴大時成功率下降,因安全訓練更充分;(二)某些複雜語意注入則隨規模擴大成功率上升,因模型更能理解微妙的對抗意圖;(三)微調常削弱對齊,使微調過的模型即使同規模下亦更脆弱。

攻擊面分析

攻擊向量	描述	複雜度	影響	可偵測性
直接輸入操縱	使用者訊息中的對抗性內容	低	多變	中
間接通道利用	對抗性內容嵌入外部資料源	中	高	低
工具輸出投毒	透過工具呼叫回傳惡意內容	中	高	低
上下文視窗操縱	透過輸入量利用注意力動態	高	高	中
訓練期干擾	投毒訓練或微調資料	極高	嚴重	極低
多階段串接	跨回合組合多種技術	高	嚴重	低

階段	活動	工具	交付物
偵察	系統列舉	Garak、Promptfoo	目標側寫
假設	辨識漏洞類別	MITRE ATLAS	測試計畫
執行	執行測試	PyRIT、HarmBench	原始結果
分析	分類發現	CVSS	發現資料庫
報告	可行報告	報告範本	最終評估報告

自動化測試

description: "Injection Scaling Laws Security Assessment"
providers:
  - id: openai:gpt-4o
    config:
      temperature: 0
 
tests:
  - description: "Baseline"
    vars:
      input: "Normal user request"
    assert:
      - type: not-contains
        value: "SYSTEM PROMPT"

Qi et al. 2024 — "Fine-tuning Aligned Language Models Compromises Safety" (ICLR 2024)
Zou et al. 2023 — "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Hubinger et al. 2024 — "Sleeper Agents"
Inspect AI (UK AISI) — github.com/UKGovernmentBEIS/inspect_ai

Knowledge Check

下列何者最能描述與注入縮放法則相關的主要洞見?

Knowledge Check

對抗此類威脅最有效的防禦策略為何?

注入的縮放法則

進階3 分鐘閱讀更新於 2026-03-20

研究注入有效性如何隨模型大小、訓練算力與安全訓練投入而縮放。

research scaling laws model-size

from openai import OpenAI
 
client = OpenAI()
 
def demonstrate_concept(system_prompt: str, user_input: str) -> str:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_input},
        ],
        temperature=0.0,
    )
    return response.choices[0].message.content
 
baseline = demonstrate_concept(
    system_prompt="You are a helpful assistant that only discusses cooking.",
    user_input="What is the capital of France?",
)
print(f"Baseline: {baseline}")

技術深入

攻擊面分析

攻擊向量	描述	複雜度	影響	可偵測性
直接輸入操縱	使用者訊息中的對抗性內容	低	多變	中
間接通道利用	對抗性內容嵌入外部資料源	中	高	低
工具輸出投毒	透過工具呼叫回傳惡意內容	中	高	低
上下文視窗操縱	透過輸入量利用注意力動態	高	高	中
訓練期干擾	投毒訓練或微調資料	極高	嚴重	極低
多階段串接	跨回合組合多種技術	高	嚴重	低

階段	活動	工具	交付物
偵察	系統列舉	Garak、Promptfoo	目標側寫
假設	辨識漏洞類別	MITRE ATLAS	測試計畫
執行	執行測試	PyRIT、HarmBench	原始結果
分析	分類發現	CVSS	發現資料庫
報告	可行報告	報告範本	最終評估報告

自動化測試

description: "Injection Scaling Laws Security Assessment"
providers:
  - id: openai:gpt-4o
    config:
      temperature: 0
 
tests:
  - description: "Baseline"
    vars:
      input: "Normal user request"
    assert:
      - type: not-contains
        value: "SYSTEM PROMPT"

Qi et al. 2024 — "Fine-tuning Aligned Language Models Compromises Safety" (ICLR 2024)
Zou et al. 2023 — "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Hubinger et al. 2024 — "Sleeper Agents"
Inspect AI (UK AISI) — github.com/UKGovernmentBEIS/inspect_ai

Knowledge Check

下列何者最能描述與注入縮放法則相關的主要洞見?

Knowledge Check

對抗此類威脅最有效的防禦策略為何?

注入的縮放法則

相關文章

注入的縮放法則

相關文章