部落格
來自 AI 紅隊社群的研究、公告與見解。
用 AI 紅隊演練找 CVE:以研究為根基的指南
AI 紅隊演練技術如何在 SQLite、OpenSSL、Linux 核心與 UEFI 開機載入器中發現真實世界 CVE——附上背後研究的引用。
只需 250 份投毒文件:Anthropic 的資料投毒突破
Anthropic、英國 AI 安全研究所與 Turing 研究所證實,只要在預訓練資料中注入 250 份惡意文件,就能對 6 億到 130 億參數的大型語言模型植入後門。本文剖析這對模型安全的意涵。
駭入 AI 駭客:當安全工具成為漏洞
新研究對 AI 驅動安全工具達成 100% 提示詞注入成功率。如果你的 SOC 使用 AI 進行威脅偵測,你的 AI 可被反向對付你。以下是研究發現與防禦方法。
2026 年大型語言模型越獄:97% 成功率、自主攻擊,與失靈的軍備競賽
Nature Communications 證實 AI 推理模型可以自主越獄其他大型語言模型,成功率達 97%。JBFuzz 在 60 秒內達到 99% 成功率。本文揭示 2026 年最新研究對 AI 安全現況的揭露——以及為什麼現有防禦正在失敗。
紅隊演練 AI SOC:為何你的自主安全營運需要對手
隨著組織急於在 SOC 中部署代理式 AI,紅隊員發現防禦者自己的 AI 代理現在就是攻擊面。520 起工具濫用事件、記憶體投毒持久性,以及 97% 越獄成功率——以下是如何在攻擊者之前紅隊演練 AI 驅動 SOC。
OpenClaw:解剖 2026 年第一場重大 AI 代理安全危機
OpenClaw 如何從一鳴驚人成為 GitHub 最受歡迎的專案,同時暴露出關鍵的代理式 AI 漏洞——從 ClawJacked WebSocket 劫持(CVE-2026-25253)到散布 macOS 竊取程式的惡意技能。紅隊員與防禦者必須知道的事。
AI 安全最新動態 — 2026 年 3 月
2026 年 3 月最重要 AI 安全發展、工具更新、研究亮點與新興攻擊向量的月度彙整。
2026 年提示詞注入現況
提示詞注入攻擊如何從簡單的指令覆蓋演進為複雜的多階段利用鏈。
代理式 AI 安全完整指南
保護代理式 AI 系統的完整指南——涵蓋工具使用風險、多代理架構、MCP 安全、記憶體投毒與實務防禦策略。
2026 年 AI 防禦版圖
當前 AI 防禦機制狀態的調查,從 prompt shields 到 LLM judges,以及軍備競賽的走向。
歡迎來到 redteams.ai
介紹 AI 紅隊演練知識庫——我們為何建構它以及未來展望。
紅隊演練雲端 AI 服務:實務指南
在 AWS、Azure 與 GCP 上紅隊演練 AI 服務的實務指南——涵蓋共享責任邊界、服務特定攻擊面與雲端原生安全控制。
建構生產 AI 防禦堆疊
如何為生產部署建構分層 AI 防禦堆疊——涵蓋輸入過濾、輸出監控、護欄、異常偵測與事件應變整合。
建立你的 AI 紅隊實驗室
使用開源模型、測試框架與真實目標應用程式設定本地 AI 紅隊演練實驗室的實務指南。
職涯指南:成為一名 AI 紅隊員
為立志成為 AI 紅隊員的人提供的完整職涯指南——涵蓋必備技能、學習路徑、認證、職務角色,以及如何從不同背景進入這個領域。
AI 安全事件:2025-2026 年回顧
從 2025 年到 2026 年初的著名 AI 安全事件彙整,涵蓋生產環境中的提示詞注入、代理利用與新興攻擊類別。
2026 年頂級 AI 漏洞
分析 2026 年發現與利用的最具影響力 AI 漏洞——從 MCP 工具遮蔽到多代理注入鏈與推理模型利用。
MCP 安全:新的攻擊面
深入探討模型上下文協議安全——分析工具註冊攻擊、傳輸層風險、跨伺服器利用與實務強化策略。
LLM 鑑識:事件應變者入門
LLM 安全事件鑑識調查入門——涵蓋證據收集、日誌分析、攻擊重建、模型行為分析與鑑識工具。
2026 年的推理模型安全
o1、o3 與 DeepSeek-R1 等思維鏈推理模型如何改變 AI 安全版圖——新的攻擊面與新的防禦機會。
微調安全研究的教訓
來自微調安全研究的關鍵教訓——涵蓋對齊侵蝕、後門植入、資料投毒、安全評估落差,以及微調管線的防禦策略。
多模態攻擊版圖
隨著 AI 系統處理圖片、音訊與影片以及文字,攻擊面已大幅擴展。紅隊員需要知道的事。
2025 年 AI 紅隊演練現況
2025 年初 AI 紅隊演練版圖的調查——新興攻擊向量、產業採用、工具成熟度,以及隨著領域演進的預期。