多代理注入研究

進階3 分鐘閱讀更新於 2026-03-20

研究注入如何在多代理系統中傳播,以及哪些性質決定感染擴散速率。

research multi-agent injection propagation

概述

研究注入如何在多代理系統中傳播,以及哪些性質決定感染擴散速率。

本主題對理解當前 AI 安全態勢至關重要。Hubinger et al. 2024 — "Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training" 為本文探討的概念奠定基礎脈絡。

核心概念

安全意涵源自現代語言模型設計、訓練與部署方式的根本性質。多代理系統中,注入可透過代理間的訊息傳遞「感染」其他代理:當一個代理被注入並成為其他代理的資料源時,其輸出就成為下游代理的對抗性輸入。感染擴散速率取決於代理間的拓撲、訊息信任策略與驗證機制。

基本原則

此類漏洞核心機制發生在「遵循指令能力」與「無法認證指令來源」的交互上。多代理環境進一步放大此問題:代理無法可靠區分其他代理的真實意圖與被注入的指令。

from openai import OpenAI
 
client = OpenAI()
 
def demonstrate_concept(system_prompt: str, user_input: str) -> str:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_input},
        ],
        temperature=0.0,
    )
    return response.choices[0].message.content
 
baseline = demonstrate_concept(
    system_prompt="You are a helpful assistant that only discusses cooking.",
    user_input="What is the capital of France?",
)
print(f"Baseline: {baseline}")

技術深入

多代理系統的感染動態近似流行病擴散模型:R0(每個被感染代理傳染的平均數)> 1 時感染會擴散至系統內大部分代理。減少 R0 的槓桿包括:限制代理間訊息傳遞權限、對訊息進行獨立驗證、以及降低被注入代理的高權限工具存取。

攻擊面分析

攻擊向量	描述	複雜度	影響	可偵測性
直接輸入操縱	使用者訊息中的對抗性內容	低	多變	中
間接通道利用	對抗性內容嵌入外部資料源	中	高	低
工具輸出投毒	透過工具呼叫回傳惡意內容	中	高	低
代理間訊息操縱	其他代理傳來的對抗性訊息	中	高	低
訓練期干擾	投毒訓練或微調資料	極高	嚴重	極低
多階段串接	跨代理跨回合組合技術	高	嚴重	低

實用技術

載荷構造

多層編碼載荷可繞過輸入過濾器。construct_encoded_payload 接受指令與編碼鏈,依序套用編碼形成多層載荷。

自動化測試

test_injection_batch 以 asyncio.Semaphore 控制並行,對每個載荷 POST 至目標,以指標詞檢查回應。

防禦考量

輸入層防禦

以次級模型內容分類、結構化輸入格式驗證、長度上限、編碼正規化、速率限制。多代理系統需將「其他代理的輸出」也視為不可信輸入。

架構防護

權限分離、工具執行沙箱化、次級分類器輸出過濾、稽核日誌。跨代理訊息應附帶加密簽章與意圖標示以供下游驗證。

測試方法論

階段	活動	工具	交付物
偵察	系統列舉、代理拓撲映射	Garak、Promptfoo	目標側寫
假設	辨識漏洞類別	MITRE ATLAS	測試計畫
執行	執行測試	PyRIT、HarmBench	原始結果
分析	分類發現	CVSS	發現資料庫
報告	可行報告	報告範本	最終評估報告

自動化測試

description: "Multi-Agent Injection Research Security Assessment"
providers:
  - id: openai:gpt-4o
    config:
      temperature: 0
 
tests:
  - description: "Baseline"
    vars:
      input: "Normal user request"
    assert:
      - type: not-contains
        value: "SYSTEM PROMPT"

Hubinger et al. 2024 — "Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training"
Zou et al. 2023 — "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Qi et al. 2024 — "Fine-tuning Aligned Language Models Compromises Safety"
Inspect AI (UK AISI) — github.com/UKGovernmentBEIS/inspect_ai

Knowledge Check

下列何者最能描述多代理注入研究的主要風險?

Knowledge Check

對抗多代理注入最有效的防禦策略為何?

多代理注入研究

進階3 分鐘閱讀更新於 2026-03-20

研究注入如何在多代理系統中傳播,以及哪些性質決定感染擴散速率。

research multi-agent injection propagation

from openai import OpenAI
 
client = OpenAI()
 
def demonstrate_concept(system_prompt: str, user_input: str) -> str:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_input},
        ],
        temperature=0.0,
    )
    return response.choices[0].message.content
 
baseline = demonstrate_concept(
    system_prompt="You are a helpful assistant that only discusses cooking.",
    user_input="What is the capital of France?",
)
print(f"Baseline: {baseline}")

技術深入

攻擊面分析

攻擊向量	描述	複雜度	影響	可偵測性
直接輸入操縱	使用者訊息中的對抗性內容	低	多變	中
間接通道利用	對抗性內容嵌入外部資料源	中	高	低
工具輸出投毒	透過工具呼叫回傳惡意內容	中	高	低
代理間訊息操縱	其他代理傳來的對抗性訊息	中	高	低
訓練期干擾	投毒訓練或微調資料	極高	嚴重	極低
多階段串接	跨代理跨回合組合技術	高	嚴重	低

階段	活動	工具	交付物
偵察	系統列舉、代理拓撲映射	Garak、Promptfoo	目標側寫
假設	辨識漏洞類別	MITRE ATLAS	測試計畫
執行	執行測試	PyRIT、HarmBench	原始結果
分析	分類發現	CVSS	發現資料庫
報告	可行報告	報告範本	最終評估報告

自動化測試

description: "Multi-Agent Injection Research Security Assessment"
providers:
  - id: openai:gpt-4o
    config:
      temperature: 0
 
tests:
  - description: "Baseline"
    vars:
      input: "Normal user request"
    assert:
      - type: not-contains
        value: "SYSTEM PROMPT"

Hubinger et al. 2024 — "Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training"
Zou et al. 2023 — "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Qi et al. 2024 — "Fine-tuning Aligned Language Models Compromises Safety"
Inspect AI (UK AISI) — github.com/UKGovernmentBEIS/inspect_ai

Knowledge Check

下列何者最能描述多代理注入研究的主要風險?

Knowledge Check

對抗多代理注入最有效的防禦策略為何?

多代理注入研究

相關文章

多代理注入研究

相關文章