2025 年 AI 紅隊演練現況

2025-02-15redteams.ai1 分鐘閱讀

隨著我們進入 2025 年，AI 紅隊演練已從小眾學術追求演變為具有專職團隊、商業工具與監管關注的專業學科。本文調查本領域的現況以及其走向。

攻擊面已爆炸

過去一年最重大的發展是代理式 AI 的爆炸。模型不再只是產生文字——它們在執行程式碼、瀏覽網頁、管理檔案、寄送電子郵件，並與其他代理協調。每個能力都是新的攻擊向量。

模型上下文協議（MCP）與類似的工具使用標準已建立標準化攻擊面。紅隊員正發現工具濫用、記憶體投毒與代理間注入代表 AI 利用的下一個前沿。

間接提示詞注入 ——將 payload 植入 AI 系統消費的資料來源——已從理論轉為實務。隨著更多組織部署 RAG 系統與瀏覽代理，可被利用的資料來源數量大幅成長。

越獄技術與安全訓練鎖在升級中的軍備競賽。多範例越獄、漸進攻擊與梯度最佳化對抗性後綴等技術推動模型供應商大量投資於對齊。每輪改進都被新的繞過技術應對。

歐盟 AI 法案、NIST AI RMF 與 OWASP Top 10 for LLM Applications 已建立需要 AI 安全評估的監管與產業框架。組織現在被要求——不只是被鼓勵——進行 AI 紅隊演練。

Garak、PyRIT 與 Promptfoo 等開源工具已成熟為生產品質框架。持續自動化紅隊演練（CART）管線正成為部署 AI 系統組織的標準實務。

儘管有進展，仍存在重大落差：

2025 年其餘部分可能會看到：

本領域年輕、攻擊面成長中，而對熟練 AI 紅隊員的需求從未如此高。無論你是擴展至 AI 的資深安全專業人員，或是首次進入本領域的研究人員，建立這些技能的時機從未更好。

模型上下文協議（MCP）與類似的工具使用標準已建立標準化攻擊面。紅隊員正發現工具濫用、記憶體投毒與代理間注入代表 AI 利用的下一個前沿。

Garak、PyRIT 與 Promptfoo 等開源工具已成熟為生產品質框架。持續自動化紅隊演練（CART）管線正成為部署 AI 系統組織的標準實務。

儘管有進展，仍存在重大落差：

對提示詞注入沒有完整防禦 — 根本架構漏洞仍未解決

有限的多代理安全研究 — 大多數研究聚焦於單一代理情境

不足的供應鏈安全 — 模型供應鏈攻擊所受關注遠低於模型層級攻擊

沒有標準化嚴重性評分 — AI 安全社群缺乏 AI 漏洞的 CVSS 對應物

2025 年其餘部分可能會看到：

隨著代理式部署擴展，代理利用的精密度增加

針對多模態模型（視覺、音訊、影片）的新攻擊類別

對專業 AI 紅隊演練服務的需求成長

監管執行驅動安全評估標準的採用