進階主題學習指南

中級3 分鐘閱讀更新於 2026-03-15

面向進階從業者的學習指南,涵蓋 AI 安全研究方法、自動化、鑑識、新興攻擊向量與工具開發。

study-guide advanced research automation forensics

進階主題學習指南

本指南涵蓋核心課程以外的主題:研究方法論、攻擊自動化、AI 鑑識、新興威脅與工具開發。適合已完成核心評估、希望深化專業的從業者。

研究方法論

閱讀 AI 安全研究

掌握 AI 安全研究動態至關重要。以下為重要研究場域與如何從中萃取可執行情報:

場域	焦點	應汲取的內容
NeurIPS / ICML / ICLR	ML 研究(含對抗性 ML 與安全)	新型攻擊原語、具安全意涵的新模型架構、對齊研究
USENIX Security / IEEE S&P / CCS	安全研究(含 AI 安全)	具實際影響的攻擊、防禦評估、真實案例研究
arXiv(cs.CR、cs.AI、cs.CL)	各領域預印本	最早接觸新技巧的管道,但未經同儕審查——須批判閱讀
廠商部落格	Anthropic、OpenAI、Google DeepMind、Microsoft	模型卡、安全評估、已揭露漏洞、能力公告
越獄社群	實務繞過技巧	目前有效的越獄、護欄繞過模式、特定模型的怪癖

從業者閱讀策略:

先讀摘要與結論以判斷論文是否與你工作相關。
聚焦威脅模型——攻擊假設了什麼?(白盒 vs. 黑盒、存取條件、運算預算)
檢視評估方式——是在生產模型還是玩具範例上測試?是否可跨模型家族轉移?
萃取技巧——使此攻擊生效的核心洞察為何?能否套用於你的評估?
評估防禦意涵——既有護欄對此攻擊表現如何?需哪些新防禦?

發展新型技巧

從套用已知攻擊進展到開發新攻擊,需要系統化思考:

攻擊面分析:由系統架構入手,辨識信任邊界。每條信任邊界都是潛在注入面。自問:「哪些不受信任資料會抵達模型?模型以其輸出能做什麼?」

假設驅動測試:對模型行為提出具體假設並系統化測試。「我假設此模型對以學術分析為框架的請求,安全訓練較弱」——接著以控制變因的變化進行測試。

消融研究(ablation study):攻擊奏效時判定哪些元素是必要的。逐一移除以找出最精簡可行攻擊,藉此揭示底層機制並使之可一般化。

跨模型轉移:於不同模型家族測試技巧。能從開權模型(可分析機制)轉移至封閉 API 模型(無法分析)的攻擊特別有價值,因暗示對齊方法存在通用漏洞。

攻擊自動化

何時自動化

自動化對紅隊演練特定階段有價值。了解何時有助益、何時反而礙事至為重要。

階段	自動化價值	工具與做法
基線掃描	高——能快速覆蓋已知攻擊模式	Garak、promptfoo、針對 OWASP 類別的自訂腳本
模糊測試/變異	高——產生變化快於人工	PyRIT 轉換器、自訂變異引擎、LLM 協助的改寫
多輪攻擊	中——編排有助益但策略仍需人判斷	PyRIT 編排器、自訂對話流程狀態機
發展新型技巧	低——需要自動化難以具備的創意與直覺	以人為主,工具協助加速迭代
迴歸測試	高——驗證過去發現仍已修補	與 CI/CD 整合的攻擊測試套件
覆蓋率追蹤	高——確保跨類別系統化測試	自訂儀表板、測試案例管理整合

工具生態

了解主要工具與其強項:

Garak(Generative AI Red-teaming and Assessment Kit):

Probe 架構:probe 產生攻擊、detector 評估回應
適合:對已知漏洞類別的基線掃描
限制:以單輪為主,多步編排有限
可擴充:可加入自訂 probe 與 detector

PyRIT(Python Risk Identification Tool for Generative AI):

Microsoft 的多輪攻擊編排框架
Converters:在不同格式間轉換提示(Base64、翻譯、leetspeak)
Orchestrators:管理多輪攻擊策略
Scorers:評估攻擊是否成功
適合:具自動評分的複雜多輪攻擊情境

promptfoo:

YAML 驅動的評估工具
適合:針對既定測試案例系統化測試與 CI/CD 整合
外掛系統可支援自訂攻擊類型
比較評估(同一組攻擊對多個模型/組態)表現突出

Inspect AI(UK AISI):

任務導向評估框架
可組合的 solver 與 scorer
適合:具可重現指標的結構化安全評估
設計用於評估而非攻擊自動化

自建工具

若既有工具無法滿足需求,自建自動化需要:

提示詞變異引擎:以基底攻擊提示為起點,透過同義詞替換、編碼變更、語言翻譯、結構重排與 LLM 協助改寫產生變化。關鍵設計決策:如何在多樣性(產生新變形)與專注(維持攻擊意圖)之間取得平衡。

對話狀態機:多輪攻擊中以狀態機追蹤對話狀態,並依模型回應選擇下一個提示。狀態可能包含「建立好感」、「引入主題」、「升級請求」、「萃取目標內容」。狀態轉移由對模型回應的分類器評估觸發。

結果分類器:自動評估攻擊是否成功。可用:關鍵字比對(脆弱但快)、分類器模型(較穩健但可能誤判)、LLM 作法官(具情境但昂貴且可能被越獄),或以規則評分並對邊界案例人工複核。

AI 鑑識

調查 AI 安全事件

AI 安全事件發生時,鑑識調查採結構化做法:

證據蒐集優先順序:

證據來源	包含內容	蒐集急迫度
提示/回應日誌	攻擊之完整對話歷史	立即——日誌可能輪替或清除
護欄決策日誌	觸發或漏掉的過濾器	立即——揭露防禦失敗
工具呼叫稽核軌跡	遭攻陷代理採取的動作	立即——顯示影響半徑
模型版本與組態	事件當下的精確模型與參數	立即——模型可能被更新
網路日誌	資料外洩嘗試、C2 通訊	高——套用標準保存期
應用日誌	錯誤訊息、狀態變化、認證事件	高——為 AI 專屬證據提供情境
訓練資料存取日誌	訓練資料是否被存取或修改	中——與投毒調查相關
基礎設施日誌	雲端稽核軌跡、部署歷史	中——與供應鏈調查相關

根因分析

AI 事件通常有多層根因。結構化做法:

直接原因:發生了什麼?(例如「代理執行未授權工具呼叫」)
近因:如何發生?(例如「檢索文件中的提示詞注入劫持了代理推理」)
促成原因:什麼使其可能?(例如「代理取得超出所需範圍的工具存取;RAG 管線未淨化檢索文件;輸出監控未標示異常工具呼叫模式」)
系統性原因:系統為何脆弱?(例如「RAG 管線未做威脅建模;工具存取以方便而非最小權限授予;監控為傳統 Web 攻擊設計,非 AI 專屬模式」)

影響半徑評估

判定 AI 安全事件的完整影響:

資料暴露:模型上下文可存取什麼資料?模型被操縱輸出什麼?是否暴露 PII、憑證或專有資料?
動作影響:遭攻陷代理發出哪些工具呼叫?存取了哪些系統?是否對資料庫、檔案或組態做了修改?
橫向移動:遭攻陷代理是否與其他代理或系統通訊?攻擊者能否透過跨代理通訊轉進?
持久性:攻擊是否修改可能影響未來互動的持久狀態(對話歷史、知識庫、代理記憶)?
使用者影響:影響多少使用者?使用者 Session 是否受損?使用者是否收到可能造成後續傷害的操縱輸出?

新興攻擊向量

活躍研究領域

AI 攻擊態勢演變迅速,以下為新技巧正積極發展的領域:

多模態注入:將提示詞注入載荷嵌入由多模態模型處理的影像、音訊與影片中,技巧包括影像中的隱寫文字、被解讀為指令的對抗性擾動,以及音訊轉錄中的注入載荷。

微調攻擊:透過在小資料集上針對性微調以破壞安全性。研究顯示僅 100 例精心設計樣本便能顯著劣化模型安全行為。對於允許上傳自訂訓練資料的微調即服務平台特別相關。

模型合併漏洞:透過權重平均、內插或其他合併技巧結合模型時,個別模型的安全性未必保留。安全模型與不安全模型合併可能產生難以預測的安全行為。

推理模型利用:為延伸推理(chain-of-thought、tree-of-thought)訓練的模型帶來新攻擊面。推理過程本身可被操縱,延伸運算可能放大細微注入的效果。

跨 Session 攻擊:利用跨使用者 Session 的持久狀態,包括對話記憶、使用者偏好學習與共享知識庫。此類攻擊可跨越單次對話持續存在,並可能影響多個使用者。

模型登錄的供應鏈攻擊:攻陷模型託管平台(Hugging Face、model zoo)以散布含後門的模型。包括搶佔名稱(發布與熱門模型名稱相近的惡意模型)、攻陷貢獻者帳號,以及利用支援任意程式執行的模型檔案格式。

防禦研究方向

了解防禦趨勢有助紅隊預測未來會遇到什麼:

指令層級制:訓練模型辨識並強制系統、使用者與工具指令的優先層級。此為旨在於模型層解決提示詞注入的根本研究方向。

AI 系統的形式驗證:以形式方法驗證 AI 系統行為特性。仍處早期,但最終可能對特定特性提供可證安全保證。

基於可解釋性的偵測:以模型可解釋性工具(激活分析、注意力模式)偵測模型是否在回應注入而非合法提示。此由模型內部而非輸入/輸出過濾切入。

AI 機密運算:以硬體飛地(Intel SGX、AMD SEV、ARM CCA)保護模型推論不受基礎設施層攻擊,適用於保護模型權重、訓練資料與推論輸入/輸出不被雲端供應商存取。

常見陷阱

Warning

「自動化可取代人工測試」:自動化能高效處理已知模式,但無法發現新型攻擊向量。最具影響力的發現通常來自系統化方法指引下的人類創意。
「論文說可行就可行」:研究論文常在受控條件下測試。納入工具包前,請驗證所聲稱之攻擊是否確實對具備現行防禦的生產級模型有效。
「AI 鑑識與傳統數位鑑識無異」:AI 事件產生不同證據型態(提示/回應日誌、工具呼叫軌跡、模型行為產物),需要不同分析技能。傳統鑑識工具需以 AI 專屬能力增補。
「新興攻擊一定比已知攻擊危險」:真實世界多數 AI 攻陷採用熟知技巧(基本提示詞注入、錯誤組態權限),而非前沿研究。先精熟基礎再追逐前沿。
「開源工具可以覆蓋一切」:每種工具都有特定強項與明顯缺口。專業紅隊演練通常需要自訂工具補強開源框架。

主要參考

資源	類型	焦點
MITRE ATLAS	知識庫	AI/ML 系統的對手 TTP
OWASP LLM Top 10	風險框架	LLM 應用關鍵風險
NIST AI 100-2(Adversarial ML)	指引	對抗性 ML 分類與術語
Anthropic's RSP	政策文件	負責任擴展承諾與安全評估
ML Safety course(Center for AI Safety)	課程	完整 ML 安全課程
Lakera Gandalf	CTF	實務提示詞注入挑戰
HackAPrompt	競賽	具評分的結構化提示詞注入競賽

學習檢查清單

確認自己已在進階主題熟練前,應能:

讀一篇 AI 安全論文並萃取可執行技巧、威脅模型與限制
為特定測試情境選擇適當自動化工具並說明理由
建置簡單的提示詞變異引擎以產生多樣攻擊變形
執行基本 AI 鑑識——蒐集證據、建立時序、評估影響半徑
說明至少三個新興攻擊向量及其意涵
批判評估所宣稱之攻擊技巧——檢驗假設、測試可轉移性
設計自訂工具或腳本以自動化特定測試工作流
闡述當前防禦做法的限制與研究方向

進階主題學習指南

中級3 分鐘閱讀更新於 2026-03-15

面向進階從業者的學習指南,涵蓋 AI 安全研究方法、自動化、鑑識、新興攻擊向量與工具開發。

study-guide advanced research automation forensics

進階主題學習指南

本指南涵蓋核心課程以外的主題:研究方法論、攻擊自動化、AI 鑑識、新興威脅與工具開發。適合已完成核心評估、希望深化專業的從業者。

研究方法論

閱讀 AI 安全研究

掌握 AI 安全研究動態至關重要。以下為重要研究場域與如何從中萃取可執行情報:

場域	焦點	應汲取的內容
NeurIPS / ICML / ICLR	ML 研究(含對抗性 ML 與安全)	新型攻擊原語、具安全意涵的新模型架構、對齊研究
USENIX Security / IEEE S&P / CCS	安全研究(含 AI 安全)	具實際影響的攻擊、防禦評估、真實案例研究
arXiv(cs.CR、cs.AI、cs.CL)	各領域預印本	最早接觸新技巧的管道,但未經同儕審查——須批判閱讀
廠商部落格	Anthropic、OpenAI、Google DeepMind、Microsoft	模型卡、安全評估、已揭露漏洞、能力公告
越獄社群	實務繞過技巧	目前有效的越獄、護欄繞過模式、特定模型的怪癖

從業者閱讀策略:

先讀摘要與結論以判斷論文是否與你工作相關。
聚焦威脅模型——攻擊假設了什麼?(白盒 vs. 黑盒、存取條件、運算預算)
檢視評估方式——是在生產模型還是玩具範例上測試?是否可跨模型家族轉移?
萃取技巧——使此攻擊生效的核心洞察為何?能否套用於你的評估?
評估防禦意涵——既有護欄對此攻擊表現如何?需哪些新防禦?

發展新型技巧

從套用已知攻擊進展到開發新攻擊,需要系統化思考:

攻擊面分析:由系統架構入手,辨識信任邊界。每條信任邊界都是潛在注入面。自問:「哪些不受信任資料會抵達模型?模型以其輸出能做什麼?」

消融研究(ablation study):攻擊奏效時判定哪些元素是必要的。逐一移除以找出最精簡可行攻擊,藉此揭示底層機制並使之可一般化。

跨模型轉移:於不同模型家族測試技巧。能從開權模型(可分析機制)轉移至封閉 API 模型(無法分析)的攻擊特別有價值,因暗示對齊方法存在通用漏洞。

攻擊自動化

何時自動化

自動化對紅隊演練特定階段有價值。了解何時有助益、何時反而礙事至為重要。

階段	自動化價值	工具與做法
基線掃描	高——能快速覆蓋已知攻擊模式	Garak、promptfoo、針對 OWASP 類別的自訂腳本
模糊測試/變異	高——產生變化快於人工	PyRIT 轉換器、自訂變異引擎、LLM 協助的改寫
多輪攻擊	中——編排有助益但策略仍需人判斷	PyRIT 編排器、自訂對話流程狀態機
發展新型技巧	低——需要自動化難以具備的創意與直覺	以人為主,工具協助加速迭代
迴歸測試	高——驗證過去發現仍已修補	與 CI/CD 整合的攻擊測試套件
覆蓋率追蹤	高——確保跨類別系統化測試	自訂儀表板、測試案例管理整合

工具生態

了解主要工具與其強項:

Garak(Generative AI Red-teaming and Assessment Kit):

Probe 架構:probe 產生攻擊、detector 評估回應
適合:對已知漏洞類別的基線掃描
限制:以單輪為主,多步編排有限
可擴充:可加入自訂 probe 與 detector

PyRIT(Python Risk Identification Tool for Generative AI):

Microsoft 的多輪攻擊編排框架
Converters:在不同格式間轉換提示(Base64、翻譯、leetspeak)
Orchestrators:管理多輪攻擊策略
Scorers:評估攻擊是否成功
適合:具自動評分的複雜多輪攻擊情境

promptfoo:

YAML 驅動的評估工具
適合:針對既定測試案例系統化測試與 CI/CD 整合
外掛系統可支援自訂攻擊類型
比較評估(同一組攻擊對多個模型/組態)表現突出

Inspect AI(UK AISI):

任務導向評估框架
可組合的 solver 與 scorer
適合:具可重現指標的結構化安全評估
設計用於評估而非攻擊自動化

自建工具

若既有工具無法滿足需求,自建自動化需要:

AI 鑑識

調查 AI 安全事件

AI 安全事件發生時,鑑識調查採結構化做法:

證據蒐集優先順序:

證據來源	包含內容	蒐集急迫度
提示/回應日誌	攻擊之完整對話歷史	立即——日誌可能輪替或清除
護欄決策日誌	觸發或漏掉的過濾器	立即——揭露防禦失敗
工具呼叫稽核軌跡	遭攻陷代理採取的動作	立即——顯示影響半徑
模型版本與組態	事件當下的精確模型與參數	立即——模型可能被更新
網路日誌	資料外洩嘗試、C2 通訊	高——套用標準保存期
應用日誌	錯誤訊息、狀態變化、認證事件	高——為 AI 專屬證據提供情境
訓練資料存取日誌	訓練資料是否被存取或修改	中——與投毒調查相關
基礎設施日誌	雲端稽核軌跡、部署歷史	中——與供應鏈調查相關

根因分析

AI 事件通常有多層根因。結構化做法:

直接原因:發生了什麼?(例如「代理執行未授權工具呼叫」)
近因:如何發生?(例如「檢索文件中的提示詞注入劫持了代理推理」)
促成原因:什麼使其可能?(例如「代理取得超出所需範圍的工具存取;RAG 管線未淨化檢索文件;輸出監控未標示異常工具呼叫模式」)
系統性原因:系統為何脆弱?(例如「RAG 管線未做威脅建模;工具存取以方便而非最小權限授予;監控為傳統 Web 攻擊設計,非 AI 專屬模式」)

影響半徑評估

判定 AI 安全事件的完整影響:

資料暴露:模型上下文可存取什麼資料?模型被操縱輸出什麼?是否暴露 PII、憑證或專有資料?
動作影響:遭攻陷代理發出哪些工具呼叫?存取了哪些系統?是否對資料庫、檔案或組態做了修改?
橫向移動:遭攻陷代理是否與其他代理或系統通訊?攻擊者能否透過跨代理通訊轉進?
持久性:攻擊是否修改可能影響未來互動的持久狀態(對話歷史、知識庫、代理記憶)?
使用者影響:影響多少使用者?使用者 Session 是否受損?使用者是否收到可能造成後續傷害的操縱輸出?

新興攻擊向量

活躍研究領域

AI 攻擊態勢演變迅速,以下為新技巧正積極發展的領域:

推理模型利用:為延伸推理(chain-of-thought、tree-of-thought)訓練的模型帶來新攻擊面。推理過程本身可被操縱,延伸運算可能放大細微注入的效果。

防禦研究方向

了解防禦趨勢有助紅隊預測未來會遇到什麼:

指令層級制:訓練模型辨識並強制系統、使用者與工具指令的優先層級。此為旨在於模型層解決提示詞注入的根本研究方向。

AI 系統的形式驗證:以形式方法驗證 AI 系統行為特性。仍處早期,但最終可能對特定特性提供可證安全保證。

基於可解釋性的偵測:以模型可解釋性工具(激活分析、注意力模式)偵測模型是否在回應注入而非合法提示。此由模型內部而非輸入/輸出過濾切入。

常見陷阱

Warning

「自動化可取代人工測試」:自動化能高效處理已知模式,但無法發現新型攻擊向量。最具影響力的發現通常來自系統化方法指引下的人類創意。
「論文說可行就可行」:研究論文常在受控條件下測試。納入工具包前,請驗證所聲稱之攻擊是否確實對具備現行防禦的生產級模型有效。
「AI 鑑識與傳統數位鑑識無異」:AI 事件產生不同證據型態(提示/回應日誌、工具呼叫軌跡、模型行為產物),需要不同分析技能。傳統鑑識工具需以 AI 專屬能力增補。
「新興攻擊一定比已知攻擊危險」:真實世界多數 AI 攻陷採用熟知技巧(基本提示詞注入、錯誤組態權限),而非前沿研究。先精熟基礎再追逐前沿。
「開源工具可以覆蓋一切」:每種工具都有特定強項與明顯缺口。專業紅隊演練通常需要自訂工具補強開源框架。

主要參考

資源	類型	焦點
MITRE ATLAS	知識庫	AI/ML 系統的對手 TTP
OWASP LLM Top 10	風險框架	LLM 應用關鍵風險
NIST AI 100-2(Adversarial ML)	指引	對抗性 ML 分類與術語
Anthropic's RSP	政策文件	負責任擴展承諾與安全評估
ML Safety course(Center for AI Safety)	課程	完整 ML 安全課程
Lakera Gandalf	CTF	實務提示詞注入挑戰
HackAPrompt	競賽	具評分的結構化提示詞注入競賽

學習檢查清單

確認自己已在進階主題熟練前,應能:

讀一篇 AI 安全論文並萃取可執行技巧、威脅模型與限制
為特定測試情境選擇適當自動化工具並說明理由
建置簡單的提示詞變異引擎以產生多樣攻擊變形
執行基本 AI 鑑識——蒐集證據、建立時序、評估影響半徑
說明至少三個新興攻擊向量及其意涵
批判評估所宣稱之攻擊技巧——檢驗假設、測試可轉移性
設計自訂工具或腳本以自動化特定測試工作流
闡述當前防禦做法的限制與研究方向

進階主題學習指南

相關文章

進階主題學習指南

相關文章