開始學習 AI 紅隊實驗
AI 紅隊動手實驗環境介紹。瞭解你所需的資源、實驗的結構,並掌握所有初階練習的概觀。
歡迎來到 AI 紅隊實驗
這些實驗提供動手練習的機會,讓你體驗用以評估大型語言模型(LLM)安全性與穩健度的技術、工具與方法論。與理論教材不同,本系列每一個實驗都要求你對真實模型執行真實攻擊,親身觀察結果。
適合的對象
初階課程是為具備以下條件的從業者設計:
- 基礎 Python 能力 —— 你能撰寫函式、處理例外、使用套件
- 基礎資安素養 —— 你瞭解輸入驗證、授權控管、攻擊面等概念
- 對 LLM 行為的好奇心 —— 你想理解語言模型為何失敗,以及如何系統性地測試它們
你不需要具備機器學習、模型內部運作或進階提示工程的先備經驗。實驗會逐步帶你建立這些技能。
先備條件
開始實驗前,請先備妥以下項目:
| 項目 | 最低需求 | 建議 |
|---|---|---|
| Python | 3.9+ | 3.11+ |
| 記憶體 | 8 GB | 16 GB |
| 磁碟空間 | 10 GB 可用 | 50 GB 可用(本地模型所需) |
| API 存取 | 至少一把 LLM API 金鑰 | OpenAI + Anthropic + 本地模型 |
| 作業系統 | 任一(Linux、macOS、Windows + WSL) | Linux 或 macOS |
實驗結構
本系列每一個實驗皆遵循一致格式:
學習目標
每個實驗一開始都會列出明確目標,讓你清楚將取得什麼技能。
先備條件與環境設置
所需的工具、套件與組態會預先列出,請先完成這些再進行練習。
背景脈絡
簡要說明所探討的技術或概念,並連結至更深入的理論頁面。
逐步練習
詳細且編號的指示,帶你完成每一項攻擊或測試。每步都附有確切指令或程式碼。
預期輸出
提供範例輸出,讓你比對結果是否符合預期。若模型行為可能有差異,也會特別說明。
疑難排解
常見問題與解法,讓你把時間花在學習上,而非環境除錯。
知識檢核
每個實驗結尾附有小測驗,用以強化關鍵概念並驗證你的理解。
初階實驗概觀
初階課程包含 11 個動手實驗,從環境設置一路帶到漸進複雜的攻擊技術:
基礎實驗
| 實驗 | 標題 | 你將學到 |
|---|---|---|
| 1 | 環境設置 | 安裝工具、設定 API 金鑰、驗證環境 |
| 2 | 你的第一次提示注入 | 針對聊天機器人的基本提示覆寫技巧 |
| 3 | 基本 Jailbreak 技術 | 角色扮演、DAN 類、框架誘導型 jailbreak |
工具實驗
| 實驗 | 標題 | 你將學到 |
|---|---|---|
| 4 | 打造簡單測試框架 | 以 Python 自動化提示測試並輸出 CSV |
| 5 | 使用 Garak 掃描 | 使用 Garak 框架進行自動化漏洞掃描 |
| 6 | 以 API 測試模型 | 透過 OpenAI、Anthropic 與本地 API 測試模型 |
攻擊技術實驗
| 實驗 | 標題 | 你將學到 |
|---|---|---|
| 7 | 系統提示擷取 | 從已部署模型中擷取隱藏的系統提示 |
| 8 | 輸出格式操控 | 逼使模型產出特定格式以利後續利用 |
| 9 | 基礎防禦規避 | 繞過關鍵字過濾器與基本內容分類器 |
| 10 | 角色扮演與人設攻擊 | 打造以人設為基礎的攻擊並評估其效果 |
| 11 | 編碼與混淆 | 透過編碼手法繞過模型安全過濾 |
建議進程
雖然實驗設計上是依序進行,但依興趣亦可選擇以下替代路徑:
- 工具導向路徑:實驗 1、4、5、6 —— 聚焦於建構與使用測試基礎設施
- 攻擊導向路徑:實驗 1、2、3、7、8、10、11 —— 聚焦於動手實作各類攻擊技術
- 防禦感知路徑:實驗 1、2、9、8 —— 聚焦於理解並繞過防禦
倫理規範
本系列所有實驗皆遵循負責任 AI 紅隊原則:
- 僅測試你獲授權的對象 —— 自有部署,或具明確測試權限的模型
- 凡事留紀錄 —— 保留所有測試日誌以利追蹤與問責
- 負責任地回報漏洞 —— 遵循廠商的揭露流程
- 絕不將發現武器化 —— 目的是提升安全,而非造成傷害
- 遵守速率限制與服務條款 —— 勿濫用 API 存取
關於倫理與法律議題的深入討論,請參閱 紅隊倫理 與 法律考量。
接下來的內容
完成初階課程後,你將可進入:
相關主題
- 中階實驗 - 以多步驟攻擊、RAG 投毒與工具利用繼續你的學習進程
- 紅隊方法論 - 瞭解有效 AI 紅隊委任背後的結構化方法
- 攻擊分類 - 本系列實驗涵蓋的 AI 攻擊向量綜合分類
- 工具生態 - 整個課程會用到的紅隊工具概觀
參考資料
- "OWASP Top 10 for LLM Applications" - OWASP(2025)- 對應本系列實驗的業界標準 LLM 安全風險分類
- "AI Risk Management Framework" - NIST(2023)- 與紅隊方法論相關的聯邦 AI 風險識別與管理指引
- "Red Teaming Language Models with Language Models" - Perez et al.(2022)- 自動化紅隊方法的奠基論文
- "Garak Documentation" - NVIDIA/garak(2024)- 實驗 5 所用之 Garak LLM 漏洞掃描器的官方文件
完成初階實驗的建議方式為何?
下列何者並非初階實驗的先備條件?