What is Environment Setup?

Step-by-step guide to setting up a complete AI red teaming environment with Python, API clients, scanning tools, and local models.

What is First Injection?

Hands-on lab where you perform your first prompt injection attacks against a chatbot, progressing from basic overrides to more sophisticated techniques.

What is Jailbreak Basics?

Hands-on exploration of jailbreak techniques including role-play, DAN-style prompts, and academic framing against multiple models.

What is Simple Test Harness?

Build a reusable Python test harness that automates sending test prompts, recording results, and calculating attack success metrics.

What is Garak Scanning?

Install and run the Garak LLM vulnerability scanner against local models. Learn to configure probes, generators, and evaluators for comprehensive scanning.

Learn to test language models through their APIs including OpenAI, Anthropic, and local Ollama endpoints. Build reusable API testing functions with proper error handling.

What is System Prompt Extraction?

Hands-on techniques for extracting hidden system prompts from LLM-powered applications using direct asking, role-play, instruction replay, and other methods.

What is Output Manipulation?

Hands-on lab on forcing LLMs to output in specific formats including JSON injection, markdown manipulation, and structured output exploitation for data exfiltration.

What is Defense Evasion 101?

Encounter and bypass basic LLM defenses including keyword filters, content classifiers, and input preprocessing through encoding tricks, synonym substitution, and payload splitting.

What is Role-Play Attacks?

Hands-on lab exploring role-play and persona-based jailbreak techniques, where you craft scenarios that trick LLMs into adopting alternative identities to bypass safety guardrails.

開始學習 AI 紅隊實驗

入門3 分鐘閱讀更新於 2026-03-13

AI 紅隊動手實驗環境介紹。瞭解你所需的資源、實驗的結構，並掌握所有初階練習的概觀。

labs getting-started beginner setup

歡迎來到 AI 紅隊實驗

這些實驗提供動手練習的機會，讓你體驗用以評估大型語言模型（LLM）安全性與穩健度的技術、工具與方法論。與理論教材不同，本系列每一個實驗都要求你對真實模型執行真實攻擊，親身觀察結果。

適合的對象

初階課程是為具備以下條件的從業者設計：

基礎 Python 能力 —— 你能撰寫函式、處理例外、使用套件
基礎資安素養 —— 你瞭解輸入驗證、授權控管、攻擊面等概念
對 LLM 行為的好奇心 —— 你想理解語言模型為何失敗，以及如何系統性地測試它們

你不需要具備機器學習、模型內部運作或進階提示工程的先備經驗。實驗會逐步帶你建立這些技能。

先備條件

開始實驗前，請先備妥以下項目：

項目	最低需求	建議
Python	3.9+	3.11+
記憶體	8 GB	16 GB
磁碟空間	10 GB 可用	50 GB 可用（本地模型所需）
API 存取	至少一把 LLM API 金鑰	OpenAI + Anthropic + 本地模型
作業系統	任一（Linux、macOS、Windows + WSL）	Linux 或 macOS

實驗結構

本系列每一個實驗皆遵循一致格式：

學習目標
每個實驗一開始都會列出明確目標，讓你清楚將取得什麼技能。
先備條件與環境設置
所需的工具、套件與組態會預先列出，請先完成這些再進行練習。
背景脈絡
簡要說明所探討的技術或概念，並連結至更深入的理論頁面。
逐步練習
詳細且編號的指示，帶你完成每一項攻擊或測試。每步都附有確切指令或程式碼。
預期輸出
提供範例輸出，讓你比對結果是否符合預期。若模型行為可能有差異，也會特別說明。
疑難排解
常見問題與解法，讓你把時間花在學習上，而非環境除錯。
知識檢核
每個實驗結尾附有小測驗，用以強化關鍵概念並驗證你的理解。

初階實驗概觀

初階課程包含 11 個動手實驗，從環境設置一路帶到漸進複雜的攻擊技術：

基礎實驗

實驗	標題	你將學到
1	環境設置	安裝工具、設定 API 金鑰、驗證環境
2	你的第一次提示注入	針對聊天機器人的基本提示覆寫技巧
3	基本 Jailbreak 技術	角色扮演、DAN 類、框架誘導型 jailbreak

工具實驗

實驗	標題	你將學到
4	打造簡單測試框架	以 Python 自動化提示測試並輸出 CSV
5	使用 Garak 掃描	使用 Garak 框架進行自動化漏洞掃描
6	以 API 測試模型	透過 OpenAI、Anthropic 與本地 API 測試模型

攻擊技術實驗

實驗	標題	你將學到
7	系統提示擷取	從已部署模型中擷取隱藏的系統提示
8	輸出格式操控	逼使模型產出特定格式以利後續利用
9	基礎防禦規避	繞過關鍵字過濾器與基本內容分類器
10	角色扮演與人設攻擊	打造以人設為基礎的攻擊並評估其效果
11	編碼與混淆	透過編碼手法繞過模型安全過濾

建議進程

雖然實驗設計上是依序進行，但依興趣亦可選擇以下替代路徑：

工具導向路徑：實驗 1、4、5、6 —— 聚焦於建構與使用測試基礎設施
攻擊導向路徑：實驗 1、2、3、7、8、10、11 —— 聚焦於動手實作各類攻擊技術
防禦感知路徑：實驗 1、2、9、8 —— 聚焦於理解並繞過防禦

倫理規範

本系列所有實驗皆遵循負責任 AI 紅隊原則：

僅測試你獲授權的對象 —— 自有部署，或具明確測試權限的模型
凡事留紀錄 —— 保留所有測試日誌以利追蹤與問責
負責任地回報漏洞 —— 遵循廠商的揭露流程
絕不將發現武器化 —— 目的是提升安全，而非造成傷害
遵守速率限制與服務條款 —— 勿濫用 API 存取

關於倫理與法律議題的深入討論，請參閱紅隊倫理與法律考量。

接下來的內容

完成初階課程後，你將可進入：

中階實驗 —— 多步驟攻擊、進階 jailbreak、工具使用的利用
進階實驗 —— 自動化紅隊管線、模型特定攻擊、微調漏洞利用
CTF 挑戰 —— 以競賽形式的奪旗練習測試你的技能

參考資料

"OWASP Top 10 for LLM Applications" - OWASP（2025）- 對應本系列實驗的業界標準 LLM 安全風險分類
"AI Risk Management Framework" - NIST（2023）- 與紅隊方法論相關的聯邦 AI 風險識別與管理指引
"Red Teaming Language Models with Language Models" - Perez et al.（2022）- 自動化紅隊方法的奠基論文
"Garak Documentation" - NVIDIA/garak（2024）- 實驗 5 所用之 Garak LLM 漏洞掃描器的官方文件

Knowledge Check

完成初階實驗的建議方式為何？

Knowledge Check

下列何者並非初階實驗的先備條件？

開始學習 AI 紅隊實驗

入門3 分鐘閱讀更新於 2026-03-13

AI 紅隊動手實驗環境介紹。瞭解你所需的資源、實驗的結構，並掌握所有初階練習的概觀。

labs getting-started beginner setup

歡迎來到 AI 紅隊實驗

適合的對象

初階課程是為具備以下條件的從業者設計：

基礎 Python 能力 —— 你能撰寫函式、處理例外、使用套件
基礎資安素養 —— 你瞭解輸入驗證、授權控管、攻擊面等概念
對 LLM 行為的好奇心 —— 你想理解語言模型為何失敗，以及如何系統性地測試它們

你不需要具備機器學習、模型內部運作或進階提示工程的先備經驗。實驗會逐步帶你建立這些技能。

先備條件

開始實驗前，請先備妥以下項目：

項目	最低需求	建議
Python	3.9+	3.11+
記憶體	8 GB	16 GB
磁碟空間	10 GB 可用	50 GB 可用（本地模型所需）
API 存取	至少一把 LLM API 金鑰	OpenAI + Anthropic + 本地模型
作業系統	任一（Linux、macOS、Windows + WSL）	Linux 或 macOS

實驗結構

本系列每一個實驗皆遵循一致格式：

學習目標
每個實驗一開始都會列出明確目標，讓你清楚將取得什麼技能。
先備條件與環境設置
所需的工具、套件與組態會預先列出，請先完成這些再進行練習。
背景脈絡
簡要說明所探討的技術或概念，並連結至更深入的理論頁面。
逐步練習
詳細且編號的指示，帶你完成每一項攻擊或測試。每步都附有確切指令或程式碼。
預期輸出
提供範例輸出，讓你比對結果是否符合預期。若模型行為可能有差異，也會特別說明。
疑難排解
常見問題與解法，讓你把時間花在學習上，而非環境除錯。
知識檢核
每個實驗結尾附有小測驗，用以強化關鍵概念並驗證你的理解。

初階實驗概觀

初階課程包含 11 個動手實驗，從環境設置一路帶到漸進複雜的攻擊技術：

基礎實驗

實驗	標題	你將學到
1	環境設置	安裝工具、設定 API 金鑰、驗證環境
2	你的第一次提示注入	針對聊天機器人的基本提示覆寫技巧
3	基本 Jailbreak 技術	角色扮演、DAN 類、框架誘導型 jailbreak

工具實驗

實驗	標題	你將學到
4	打造簡單測試框架	以 Python 自動化提示測試並輸出 CSV
5	使用 Garak 掃描	使用 Garak 框架進行自動化漏洞掃描
6	以 API 測試模型	透過 OpenAI、Anthropic 與本地 API 測試模型

攻擊技術實驗

實驗	標題	你將學到
7	系統提示擷取	從已部署模型中擷取隱藏的系統提示
8	輸出格式操控	逼使模型產出特定格式以利後續利用
9	基礎防禦規避	繞過關鍵字過濾器與基本內容分類器
10	角色扮演與人設攻擊	打造以人設為基礎的攻擊並評估其效果
11	編碼與混淆	透過編碼手法繞過模型安全過濾

建議進程

雖然實驗設計上是依序進行，但依興趣亦可選擇以下替代路徑：

工具導向路徑：實驗 1、4、5、6 —— 聚焦於建構與使用測試基礎設施
攻擊導向路徑：實驗 1、2、3、7、8、10、11 —— 聚焦於動手實作各類攻擊技術
防禦感知路徑：實驗 1、2、9、8 —— 聚焦於理解並繞過防禦

倫理規範

本系列所有實驗皆遵循負責任 AI 紅隊原則：

僅測試你獲授權的對象 —— 自有部署，或具明確測試權限的模型
凡事留紀錄 —— 保留所有測試日誌以利追蹤與問責
負責任地回報漏洞 —— 遵循廠商的揭露流程
絕不將發現武器化 —— 目的是提升安全，而非造成傷害
遵守速率限制與服務條款 —— 勿濫用 API 存取

關於倫理與法律議題的深入討論，請參閱紅隊倫理與法律考量。

接下來的內容

完成初階課程後，你將可進入：

中階實驗 —— 多步驟攻擊、進階 jailbreak、工具使用的利用
進階實驗 —— 自動化紅隊管線、模型特定攻擊、微調漏洞利用
CTF 挑戰 —— 以競賽形式的奪旗練習測試你的技能

參考資料

"OWASP Top 10 for LLM Applications" - OWASP（2025）- 對應本系列實驗的業界標準 LLM 安全風險分類
"AI Risk Management Framework" - NIST（2023）- 與紅隊方法論相關的聯邦 AI 風險識別與管理指引
"Red Teaming Language Models with Language Models" - Perez et al.（2022）- 自動化紅隊方法的奠基論文
"Garak Documentation" - NVIDIA/garak（2024）- 實驗 5 所用之 Garak LLM 漏洞掃描器的官方文件

Knowledge Check

完成初階實驗的建議方式為何？

Knowledge Check

下列何者並非初階實驗的先備條件？

開始學習 AI 紅隊實驗

學習目標

先備條件與環境設置

背景脈絡

逐步練習

預期輸出

疑難排解

知識檢核

學習路徑

相關文章

開始學習 AI 紅隊實驗

學習目標

先備條件與環境設置

背景脈絡

逐步練習

預期輸出

疑難排解

知識檢核

學習路徑

相關文章