AI 安全最新動態 — 2026 年 3 月

2026-03-15redteams.ai team2 分鐘閱讀

roundup ai-security tools research regulation monthly

2026 年 3 月是 AI 安全的里程碑月份。在紅隊工具領域的重大收購、顯著監管轉變，以及針對代理協議的新興攻擊向量之間，有很多要解析的。以下是對 AI 紅隊員與安全從業者最重要的發展月度彙整。

工具更新

promptfoo 被 OpenAI 收購

本月最大新聞：OpenAI 已收購 promptfoo，這個開源 LLM 評估與紅隊演練框架。promptfoo 已成為自動化提示詞注入測試與模型評估的事實標準。

對從業者的意涵：開源專案將在 Apache 2.0 授權下繼續。預期與 OpenAI 模型評估基礎設施更緊密整合。第三方模型測試可能最終獲得較少關注。如果你依賴 promptfoo 進行非 OpenAI 模型評估，考慮現在評估替代方案。

PyRIT v0.11.0 附帶前端 UI

Microsoft 的 PyRIT 發布 v0.11.0 加入主要功能：用於編排與視覺化紅隊活動的 網頁前端 UI。包含視覺化活動建構器、即時評分儀表板、匯出功能與改進的轉換器管線。

garak 擴展探測類別

garak 漏洞掃描器在 3 月的顯著新增包含：MCP 工具投毒探測、多代理委託探測、推理鏈操控探測，以及改進的多模態模型支援。

研究亮點

對齊造假研究持續演進

多個研究團隊已獨立重現模型可在評估與部署時策略性地表現不同的發現。對紅隊員的實務意涵：測試必須考量模型在偵測到評估條件時表現不同的可能性。 隨機化與隱匿模式測試方法越來越重要。

Constitutional Classifiers 展示有前景的防禦成果

Anthropic 的 constitutional classifier 方法展示強勁成果：已知越獄類別 92% 偵測率且低於 1% 誤報率。對編碼規避具顯著韌性。多輪漸進攻擊與上下文視窗操控仍為弱點。

CaMeL 與雙 LLM 模式獲得牽引力

CaMeL（能力感知最小權限 LLM）模式將「思考」LLM 與「行動」LLM 分離，中間有安全邊界。紅隊員應尋找這些模式並測試分離是否實際被強制。

監管版圖

後 EO 14110 環境

行政命令 14110 的撤銷為美國 AI 安全建立不均勻監管版圖。聯邦機構已減少強制 AI 風險評估要求。NIST AI RMF 採用仍為自願性。政府與私部門 AI 安全標準之間的落差正擴大。

歐盟 AI 法案實施進展

GPAI 實務準則在最終修訂中。高風險 AI 系統供應商必須在 2026 年 8 月前完成初始合規評估。紅隊演練要求正被正式化。對 AI 紅隊演練顧問公司，歐盟 AI 法案代表顯著市場擴展。

州級 AI 立法

美國州級立法持續填補聯邦立法的缺口：加州推進更新版 SB-1047 風格立法、科羅拉多州與康乃狄克州已頒布包含安全評估條款的 AI 透明度要求。

新攻擊向量

MCP 利用浮現

關鍵攻擊面包含：工具描述投毒、跨伺服器外洩、架構注入、回呼濫用。

多模態攻擊更精密

基於字型的圖片注入現在可靠地對抗商業視覺模型。音訊提示詞注入透過超聲波可影響語音啟用 AI 助理。影片畫面注入嵌入指令於個別畫面。防禦版圖尚未跟上。

ML 管線的供應鏈攻擊

公共模型中心上被入侵的模型權重。透過社群資料集貢獻注入的惡意訓練資料。鎖定 ML 框架外掛的依賴混淆攻擊。

社群

AI Village 規劃 DEF CON 2026

預期亮點：擴展即時模型紅隊演練活動、專門代理安全軌道、結構化漏洞回報工作坊，以及聚焦 MCP 利用的 CTF 挑戰。

結構化漏洞資料庫成長

AVID（AI 漏洞資料庫） 已擴展其分類法至超過 400 個記錄漏洞模式。OWASP 以季度更新維護其 LLM Top 10。MITRE ATLAS 持續加入基於真實世界對手行為的技術。

Huntr 上漏洞獎金活動增加

AI 特定漏洞的獎金年增平均 40%。提示詞注入仍是最高量類別。代理工具濫用報告作為提交總數的百分比成長最快。

redteams.ai 新功能

本月出貨的主要功能：

互動遊樂場 — 在瀏覽器中直接對沙盒模型測試提示詞注入技術
攻擊導航器 — MITRE ATT&CK 風格的 AI 攻擊技術矩陣視覺化
漏洞資料庫 — 已知 AI 漏洞模式的可搜尋索引
事件時間軸 — 2023 年至今著名 AI 安全事件的互動時間軸

展望：2026 年 4 月值得關注的

Google I/O 2026（4 月下旬）預期宣布 Gemini 代理能力的安全功能
歐盟 GPAI 實務準則 定稿將建立基礎模型供應商的具體紅隊演練要求
PyRIT v0.12.0 預期加入 A2A 協議測試能力
Anthropic constitutional classifier 論文的開源參考實作預期發布
州級 AI 立法 會期在多個美國州達到決策點

本彙整反映截至 2026 年 3 月 15 日已知的發展。AI 安全版圖快速變動——追蹤我們的 RSS feed 或訂閱電子報以在月度版之間保持最新。