代理式利用
代理式 AI 系統中安全漏洞的完整涵蓋,包含 MCP 工具利用、多代理協議攻擊、函式呼叫濫用、記憶體系統入侵、框架特定弱點與工作流程模式攻擊。
代理式 AI 系統代表大型語言模型部署方式上最具安全關鍵性的演進。不像只對查詢產出文字的簡單聊天機器人,代理式系統賦予大型語言模型在真實世界採取行動的能力:執行程式碼、瀏覽網頁、寄送電子郵件、查詢資料庫、修改檔案,以及與外部 API 互動。這些能力每一項都把原本只是文字生成的漏洞,轉變為真實世界傷害的途徑。
從被動的文字生成轉為主動的工具使用,根本性地改變了威脅模型。對聊天機器人的提示詞注入可能只產生不當文字;相同的注入對具備檔案系統存取、電子郵件能力與資料庫憑證的代理,卻可能外洩敏感資料、竄改關鍵紀錄或建立持久後門。每個漏洞的影響半徑會隨代理所獲授權一同擴大。
代理式攻擊堆疊
現代代理式系統由多個層次組成,每一層都呈現出不同的攻擊面。理解此堆疊是系統化紅隊演練的關鍵。
在協議層,Model Context Protocol(MCP)與 Agent-to-Agent(A2A)等標準定義了代理如何發現、呼叫工具,並與其他代理通訊。這些協議引入在簡單 API 部署中不存在的攻擊面:工具描述投毒、傳輸層中間人攻擊,以及假設對等通訊可信的代理間信任邊界違反。
在介面層,函式呼叫機制公開結構化 API,代理可依自然語言指令呼叫。從非結構化文字到結構化函式呼叫的轉譯,於每一步都產生注入機會:schema 操控、參數注入、結果投毒與遞迴呼叫利用。能理解大型語言模型如何挑選與參數化函式呼叫的攻擊者,可引導代理以錯誤引數呼叫正確工具,或徹底呼叫錯誤的工具。
在狀態層,代理記憶體系統會跨對話與工作階段保留資訊。記憶體投毒攻擊注入能跨越上下文視窗邊界的惡意指令,建立長期後門。與需要在工作階段期間主動利用的提示詞注入不同,記憶體投毒可以是「一次性攻擊,對未來所有互動皆有持續影響」。
協議層級利用
代理通訊協議的標準化已建立新型漏洞類別。MCP 為代理提供發現與呼叫工具的統一介面,引入環繞工具列舉、描述操控與傳輸安全的特定攻擊向量。當代理向 MCP 伺服器查詢可用工具時,回傳的工具描述可能包含影響代理後續行為的對抗指令。這特別危險,因為工具描述常被視為「可信的系統級上下文」而非「不可信的使用者輸入」。
為代理間通訊設計的 A2A 協議,在規模上產生信任邊界挑戰。當多個代理協作完成複雜任務,每個代理通常把來自其他代理的訊息當作系統指令般信任。攻擊者若入侵多代理工作流程中的一個代理,可將惡意指令傳播至整個代理網路,把單點漏洞轉為跨系統的連鎖故障。
函式呼叫作為攻擊面
函式呼叫是代理將自然語言意圖轉譯為結構化 API 呼叫的機制。這個轉譯流程涉及多個可利用步驟:代理必須從可用集合中挑選要呼叫的函式、決定正確參數、執行呼叫,並詮釋結果。每一步都呈現注入機會。
Schema 注入攻擊操控代理對函式簽名的理解,使其以錯誤或惡意參數呼叫函式;參數操控技術打造能通過代理驗證但包含可利用下游函式載荷的輸入;結果投毒將惡意內容注入函式回傳值,引導後續代理推理;遞迴呼叫攻擊利用代理迴圈行為,觸發會提升權限或耗盡資源的非預期函式呼叫序列。
本節您將學到
- AI 代理利用 ——針對 ReAct、Plan-and-Execute 與 LangGraph 代理架構的核心利用技術,涵蓋混淆代理攻擊、目標劫持、權限提升與沙箱逃逸
- 多代理與 A2A 協議利用 ——攻擊協作代理間的信任邊界、利用編排器模式,以及入侵 A2A 協議通訊
- MCP 與工具面利用 ——利用 Model Context Protocol,包含工具描述投毒、傳輸層攻擊,以及伺服器端注入向量
- 函式呼叫利用 ——結構化函式呼叫介面中的 schema 注入、參數操控、遞迴呼叫利用與結果投毒
- 代理記憶體系統安全 ——針對持久代理記憶體儲存的投毒、上下文操控與外洩攻擊
- 代理框架安全 ——LangChain、CrewAI、AutoGen 與 OpenAI Assistants 的框架特定漏洞
- 代理式工作流程模式攻擊 ——利用生產代理部署中使用的循序、並行與階層工作流程模式
先備知識
閱讀本節前,您應熟悉:
- 提示詞注入基礎 ——來自 提示詞注入 章節的直接與間接注入技術
- 代理架構基礎 ——代理如何使用工具呼叫、記憶體與規劃迴圈,涵蓋於 AI 系統架構
- 大型語言模型基礎 ——大型語言模型如何處理文字與產生輸出,涵蓋於 大型語言模型如何運作
- 基本安全概念 ——熟悉傳統安全中的攻擊面、信任邊界與權限提升