進階主題學習指南
面向進階從業者的學習指南,涵蓋 AI 安全研究方法、自動化、鑑識、新興攻擊向量與工具開發。
進階主題學習指南
本指南涵蓋核心課程以外的主題:研究方法論、攻擊自動化、AI 鑑識、新興威脅與工具開發。適合已完成核心評估、希望深化專業的從業者。
研究方法論
閱讀 AI 安全研究
掌握 AI 安全研究動態至關重要。以下為重要研究場域與如何從中萃取可執行情報:
| 場域 | 焦點 | 應汲取的內容 |
|---|---|---|
| NeurIPS / ICML / ICLR | ML 研究(含對抗性 ML 與安全) | 新型攻擊原語、具安全意涵的新模型架構、對齊研究 |
| USENIX Security / IEEE S&P / CCS | 安全研究(含 AI 安全) | 具實際影響的攻擊、防禦評估、真實案例研究 |
| arXiv(cs.CR、cs.AI、cs.CL) | 各領域預印本 | 最早接觸新技巧的管道,但未經同儕審查——須批判閱讀 |
| 廠商部落格 | Anthropic、OpenAI、Google DeepMind、Microsoft | 模型卡、安全評估、已揭露漏洞、能力公告 |
| 越獄社群 | 實務繞過技巧 | 目前有效的越獄、護欄繞過模式、特定模型的怪癖 |
從業者閱讀策略:
- 先讀摘要與結論以判斷論文是否與你工作相關。
- 聚焦威脅模型——攻擊假設了什麼?(白盒 vs. 黑盒、存取條件、運算預算)
- 檢視評估方式——是在生產模型還是玩具範例上測試?是否可跨模型家族轉移?
- 萃取技巧——使此攻擊生效的核心洞察為何?能否套用於你的評估?
- 評估防禦意涵——既有護欄對此攻擊表現如何?需哪些新防禦?
發展新型技巧
從套用已知攻擊進展到開發新攻擊,需要系統化思考:
攻擊面分析:由系統架構入手,辨識信任邊界。每條信任邊界都是潛在注入面。自問:「哪些不受信任資料會抵達模型?模型以其輸出能做什麼?」
假設驅動測試:對模型行為提出具體假設並系統化測試。「我假設此模型對以學術分析為框架的請求,安全訓練較弱」——接著以控制變因的變化進行測試。
消融研究(ablation study):攻擊奏效時判定哪些元素是必要的。逐一移除以找出最精簡可行攻擊,藉此揭示底層機制並使之可一般化。
跨模型轉移:於不同模型家族測試技巧。能從開權模型(可分析機制)轉移至封閉 API 模型(無法分析)的攻擊特別有價值,因暗示對齊方法存在通用漏洞。
攻擊自動化
何時自動化
自動化對紅隊演練特定階段有價值。了解何時有助益、何時反而礙事至為重要。
| 階段 | 自動化價值 | 工具與做法 |
|---|---|---|
| 基線掃描 | 高——能快速覆蓋已知攻擊模式 | Garak、promptfoo、針對 OWASP 類別的自訂腳本 |
| 模糊測試/變異 | 高——產生變化快於人工 | PyRIT 轉換器、自訂變異引擎、LLM 協助的改寫 |
| 多輪攻擊 | 中——編排有助益但策略仍需人判斷 | PyRIT 編排器、自訂對話流程狀態機 |
| 發展新型技巧 | 低——需要自動化難以具備的創意與直覺 | 以人為主,工具協助加速迭代 |
| 迴歸測試 | 高——驗證過去發現仍已修補 | 與 CI/CD 整合的攻擊測試套件 |
| 覆蓋率追蹤 | 高——確保跨類別系統化測試 | 自訂儀表板、測試案例管理整合 |
工具生態
了解主要工具與其強項:
Garak(Generative AI Red-teaming and Assessment Kit):
- Probe 架構:probe 產生攻擊、detector 評估回應
- 適合:對已知漏洞類別的基線掃描
- 限制:以單輪為主,多步編排有限
- 可擴充:可加入自訂 probe 與 detector
PyRIT(Python Risk Identification Tool for Generative AI):
- Microsoft 的多輪攻擊編排框架
- Converters:在不同格式間轉換提示(Base64、翻譯、leetspeak)
- Orchestrators:管理多輪攻擊策略
- Scorers:評估攻擊是否成功
- 適合:具自動評分的複雜多輪攻擊情境
promptfoo:
- YAML 驅動的評估工具
- 適合:針對既定測試案例系統化測試與 CI/CD 整合
- 外掛系統可支援自訂攻擊類型
- 比較評估(同一組攻擊對多個模型/組態)表現突出
Inspect AI(UK AISI):
- 任務導向評估框架
- 可組合的 solver 與 scorer
- 適合:具可重現指標的結構化安全評估
- 設計用於評估而非攻擊自動化
自建工具
若既有工具無法滿足需求,自建自動化需要:
提示詞變異引擎:以基底攻擊提示為起點,透過同義詞替換、編碼變更、語言翻譯、結構重排與 LLM 協助改寫產生變化。關鍵設計決策:如何在多樣性(產生新變形)與專注(維持攻擊意圖)之間取得平衡。
對話狀態機:多輪攻擊中以狀態機追蹤對話狀態,並依模型回應選擇下一個提示。狀態可能包含「建立好感」、「引入主題」、「升級請求」、「萃取目標內容」。狀態轉移由對模型回應的分類器評估觸發。
結果分類器:自動評估攻擊是否成功。可用:關鍵字比對(脆弱但快)、分類器模型(較穩健但可能誤判)、LLM 作法官(具情境但昂貴且可能被越獄),或以規則評分並對邊界案例人工複核。
AI 鑑識
調查 AI 安全事件
AI 安全事件發生時,鑑識調查採結構化做法:
證據蒐集優先順序:
| 證據來源 | 包含內容 | 蒐集急迫度 |
|---|---|---|
| 提示/回應日誌 | 攻擊之完整對話歷史 | 立即——日誌可能輪替或清除 |
| 護欄決策日誌 | 觸發或漏掉的過濾器 | 立即——揭露防禦失敗 |
| 工具呼叫稽核軌跡 | 遭攻陷代理採取的動作 | 立即——顯示影響半徑 |
| 模型版本與組態 | 事件當下的精確模型與參數 | 立即——模型可能被更新 |
| 網路日誌 | 資料外洩嘗試、C2 通訊 | 高——套用標準保存期 |
| 應用日誌 | 錯誤訊息、狀態變化、認證事件 | 高——為 AI 專屬證據提供情境 |
| 訓練資料存取日誌 | 訓練資料是否被存取或修改 | 中——與投毒調查相關 |
| 基礎設施日誌 | 雲端稽核軌跡、部署歷史 | 中——與供應鏈調查相關 |
根因分析
AI 事件通常有多層根因。結構化做法:
- 直接原因:發生了什麼?(例如「代理執行未授權工具呼叫」)
- 近因:如何發生?(例如「檢索文件中的提示詞注入劫持了代理推理」)
- 促成原因:什麼使其可能?(例如「代理取得超出所需範圍的工具存取;RAG 管線未淨化檢索文件;輸出監控未標示異常工具呼叫模式」)
- 系統性原因:系統為何脆弱?(例如「RAG 管線未做威脅建模;工具存取以方便而非最小權限授予;監控為傳統 Web 攻擊設計,非 AI 專屬模式」)
影響半徑評估
判定 AI 安全事件的完整影響:
- 資料暴露:模型上下文可存取什麼資料?模型被操縱輸出什麼?是否暴露 PII、憑證或專有資料?
- 動作影響:遭攻陷代理發出哪些工具呼叫?存取了哪些系統?是否對資料庫、檔案或組態做了修改?
- 橫向移動:遭攻陷代理是否與其他代理或系統通訊?攻擊者能否透過跨代理通訊轉進?
- 持久性:攻擊是否修改可能影響未來互動的持久狀態(對話歷史、知識庫、代理記憶)?
- 使用者影響:影響多少使用者?使用者 Session 是否受損?使用者是否收到可能造成後續傷害的操縱輸出?
新興攻擊向量
活躍研究領域
AI 攻擊態勢演變迅速,以下為新技巧正積極發展的領域:
多模態注入:將提示詞注入載荷嵌入由多模態模型處理的影像、音訊與影片中,技巧包括影像中的隱寫文字、被解讀為指令的對抗性擾動,以及音訊轉錄中的注入載荷。
微調攻擊:透過在小資料集上針對性微調以破壞安全性。研究顯示僅 100 例精心設計樣本便能顯著劣化模型安全行為。對於允許上傳自訂訓練資料的微調即服務平台特別相關。
模型合併漏洞:透過權重平均、內插或其他合併技巧結合模型時,個別模型的安全性未必保留。安全模型與不安全模型合併可能產生難以預測的安全行為。
推理模型利用:為延伸推理(chain-of-thought、tree-of-thought)訓練的模型帶來新攻擊面。推理過程本身可被操縱,延伸運算可能放大細微注入的效果。
跨 Session 攻擊:利用跨使用者 Session 的持久狀態,包括對話記憶、使用者偏好學習與共享知識庫。此類攻擊可跨越單次對話持續存在,並可能影響多個使用者。
模型登錄的供應鏈攻擊:攻陷模型託管平台(Hugging Face、model zoo)以散布含後門的模型。包括搶佔名稱(發布與熱門模型名稱相近的惡意模型)、攻陷貢獻者帳號,以及利用支援任意程式執行的模型檔案格式。
防禦研究方向
了解防禦趨勢有助紅隊預測未來會遇到什麼:
指令層級制:訓練模型辨識並強制系統、使用者與工具指令的優先層級。此為旨在於模型層解決提示詞注入的根本研究方向。
AI 系統的形式驗證:以形式方法驗證 AI 系統行為特性。仍處早期,但最終可能對特定特性提供可證安全保證。
基於可解釋性的偵測:以模型可解釋性工具(激活分析、注意力模式)偵測模型是否在回應注入而非合法提示。此由模型內部而非輸入/輸出過濾切入。
AI 機密運算:以硬體飛地(Intel SGX、AMD SEV、ARM CCA)保護模型推論不受基礎設施層攻擊,適用於保護模型權重、訓練資料與推論輸入/輸出不被雲端供應商存取。
常見陷阱
主要參考
| 資源 | 類型 | 焦點 |
|---|---|---|
| MITRE ATLAS | 知識庫 | AI/ML 系統的對手 TTP |
| OWASP LLM Top 10 | 風險框架 | LLM 應用關鍵風險 |
| NIST AI 100-2(Adversarial ML) | 指引 | 對抗性 ML 分類與術語 |
| Anthropic's RSP | 政策文件 | 負責任擴展承諾與安全評估 |
| ML Safety course(Center for AI Safety) | 課程 | 完整 ML 安全課程 |
| Lakera Gandalf | CTF | 實務提示詞注入挑戰 |
| HackAPrompt | 競賽 | 具評分的結構化提示詞注入競賽 |
學習檢查清單
確認自己已在進階主題熟練前,應能:
- 讀一篇 AI 安全論文並萃取可執行技巧、威脅模型與限制
- 為特定測試情境選擇適當自動化工具並說明理由
- 建置簡單的提示詞變異引擎以產生多樣攻擊變形
- 執行基本 AI 鑑識——蒐集證據、建立時序、評估影響半徑
- 說明至少三個新興攻擊向量及其意涵
- 批判評估所宣稱之攻擊技巧——檢驗假設、測試可轉移性
- 設計自訂工具或腳本以自動化特定測試工作流
- 闡述當前防禦做法的限制與研究方向