代理式 AI 安全完整指南
代理式 AI 代表自大型語言模型引入以來 AI 攻擊面最重大的轉變。當模型能瀏覽網頁、執行程式碼、管理檔案、寄送電子郵件並與其他代理協調時,安全失敗的後果從產生有害文字轉為採取有害動作。本指南涵蓋代理式 AI 系統從架構到部署的安全版圖。
代理式 AI 有什麼不同
傳統聊天機器人安全聚焦於輸入-輸出對。代理式 AI 以三種根本方式打破此模型。
第一,代理有 工具存取權。具備檔案系統存取、API 憑證與程式碼執行能力的代理可造成遠超對話的真實世界損害。
第二,代理 自主 運作。不同於回應單一提示詞的聊天機器人,代理經常以有限人類監督執行多步計畫。
第三,代理消費 不可信資料。瀏覽代理讀取任何人都可撰寫的網頁。RAG 啟用代理從可能包含注入內容的知識庫檢索文件。
代理式攻擊面
工具使用漏洞
引數注入 發生在攻擊者操控模型傳給工具的引數時。工具混淆 在模型選擇錯誤工具或以非預期方式使用工具時發生。能力升級 串接多個低權限工具呼叫以達到高權限結果。
多代理風險
代理間注入 發生在一個代理傳送包含嵌入指令的訊息給另一個代理。信任邊界混淆 產生因為代理間通訊協議不強制權限邊界。連鎖失敗 在多代理系統中被放大。
MCP 安全考量
工具遮蔽 是攻擊者註冊具有近似合法工具名稱之惡意 MCP 伺服器的技術。伺服器冒充 利用許多 MCP 部署中缺乏強認證。跨伺服器請求偽造 發生在一個 MCP 伺服器使用其存取權觸發另一個伺服器上的動作。
記憶體與狀態攻擊
記憶體投毒
當代理將對話摘要或使用者偏好儲存於持久記憶體時,攻擊者可注入影響未來互動的虛假資訊。被投毒記憶體在攻擊對話結束後持續存在,並影響所有後續對話。
上下文視窗操控
透過以精心打造的內容淹沒上下文,攻擊者可將系統提示詞與安全指令推出模型有效注意力視窗。
狀態混淆
攻擊者可能說服代理某個先前步驟已完成(跳過安全檢查)或當前步驟需要通常不會被授予的提升權限。
防禦策略
最小權限原則
代理式 AI 最重要的安全控制是將工具存取限制至每項任務所必需的最小值。工具層級限制:僅暴露代理用途所需的工具。引數驗證:執行前驗證工具引數。動作確認:對高影響動作要求人類確認。
輸入與輸出過濾
輸入分類:使用獨立模型或基於規則系統分類注入嘗試。輸出監控:監控代理輸出與工具呼叫的異常模式。指令階層:實作清晰的指令優先順序。
沙盒化與隔離
在限制成功攻擊爆炸半徑的沙盒環境中執行代理工具。容器隔離、網路限制、檔案系統限制。
監控與可觀測性
行為基準:建立正常代理行為基準。異常偵測:對偏離基準發出警報。稽核軌跡:記錄每個工具呼叫及完整引數與傳回值。
實務評估框架
紅隊演練代理式 AI 系統時:
階段 1:偵察 — 描繪代理能力、工具、資料來源與認證控制。
階段 2:工具存取測試 — 對每個工具測試引數注入、工具混淆、能力升級與未授權存取。
階段 3:注入測試 — 測試直接與間接提示詞注入。
階段 4:狀態與記憶體測試 — 測試記憶體投毒、上下文視窗操控與狀態混淆。
階段 5:多代理測試 — 測試代理間注入、信任邊界違規與連鎖失敗。
展望
代理式 AI 安全處於起步階段。根本挑戰——模型無法可靠區分指令與資料——仍未解決。每一次代理能力的進步建立新攻擊面。部署代理式 AI 系統的組織必須接受此現實:縱深防禦、全面監控與定期紅隊評估是負責任部署的先備條件。