頂石專案:漏洞研究專案
辨識並負責任揭露一類新穎的 AI 漏洞,產出顧問級撰寫、概念驗證與 MITRE ATLAS 對應。
概觀
漏洞研究是透過系統性分析、創造性實驗與對系統內部的深入理解,發掘先前未知安全議題的實務。在 AI 安全領域,這意味著找出超越 OWASP Top 10 for LLMs 或 MITRE ATLAS 已記錄類別的新型利用方式,用於語言模型、代理系統或 AI 管道。
本頂石專案挑戰您超越套用已知技術,發掘真正新穎 — 或至少是足以獨立通告的新穎變體。交付物是可用於對 AI 供應商負責任揭露或於安全會議發表的專業安全通告。
先備條件
- 提示詞注入 — 深入理解注入機制以辨識新穎變體
- 越獄技術 — 熟悉既知繞過以避免重複發現
- LLM 內部進階 — 理解模型架構可對漏洞進行機制層級推理
- 代理式利用 — 代理與工具呼叫的攻擊面
- AI 威脅全景 — 已知漏洞的現況
- 強分析思維與耐心 — 漏洞研究會遇到許多死胡同
專案簡介
情境
您是 AI 安全實驗室的研究員。團隊使命是在惡意行為者之前發掘新型 AI 系統漏洞類別。您獲得一段研究衝刺時間,以調查新穎攻擊面、發展概念驗證,並產出可發表的通告。
研究方向
請從以下研究領域擇一 (或提出自己的方向並說明理由):
- 跨模型攻擊遷移 — 為某種模型架構設計的攻擊能否可靠地遷移到其他架構?什麼性質使攻擊具可遷移性?
- 多模態注入向量 — 在多模態系統中,影像、音訊或結構化資料格式如何作為提示詞注入載體?
- 代理記憶操縱 — 攻擊者能否跨會話損壞、投毒或外洩對話代理的持久記憶?
- 工具結構描述利用 — 是否可透過精心打造的工具描述或參數結構描述,系統性操縱函式呼叫行為?
- 微調殘留萃取 — 即使供應商宣稱資料未保留,仍能否從微調後模型中萃取微調資料?
- 推理鏈操縱 — 思維鏈或推理軌跡能否被操縱,以產生看似邏輯合理但實為錯誤的結論?
研究方法論
1. Literature review: What is already known?
↓
2. Hypothesis formation: What might be possible?
↓
3. Experiment design: How to test the hypothesis?
↓
4. Controlled testing: Execute experiments
↓
5. Analysis: Characterize the vulnerability
↓
6. Validation: Confirm across conditions
↓
7. Advisory: Document for disclosure
交付物
主要交付物
| 交付物 | 描述 | 權重 |
|---|---|---|
| 安全通告 | 專業通告文件 (3-5 頁) | 35% |
| 概念驗證 | 可運作的 PoC 與重現說明 | 25% |
| MITRE ATLAS 對應 | 於 ATLAS 框架內分類 (或提議新技術) | 10% |
| 研究日誌 | 完整研究過程記錄,含失敗嘗試 | 15% |
| 負責任揭露計畫 | 您將如何對受影響方揭露 | 15% |
評分準則
- 新穎性 (25%) — 發現代表真實的新洞察,而非已記錄技術的微小變體
- 技術深度 (20%) — 通告展現對漏洞為何存在及其根因的深入理解
- PoC 品質 (20%) — 概念驗證可靠、精簡,能清楚展示漏洞且無不必要複雜性
- 通告撰寫 (20%) — 通告清晰、結構良好,適合專業受眾
- 負責任實踐 (15%) — 研究符合倫理,揭露計畫經過深思熟慮
分階段做法
階段 1:文獻回顧與假設 (3 小時)
調查既有研究
審視目前 MITRE ATLAS 矩陣、OWASP Top 10 for LLMs 與近期 AI 安全發表 (arXiv、安全研討會)。建立您所選研究領域的既有知識地圖。找出前沿 — 已記錄知識在哪裡結束?
辨識研究缺口
尋找文件提到「這可能可行」但無人展示過的領域,或已知技術尚未對較新模型架構或部署模式進行測試的領域。
提出可測試假設
撰寫 2-3 個具體、可測試的假設。好的假設可被證偽且具體:「模型 X 在處理多模態輸入時會遵循嵌入於影像 alt-text 的指令」優於「多模態模型可能有安全議題」。
階段 2:實驗設計與執行 (6 小時)
設計受控實驗
為每個假設設計具明確成功判準、控制條件與可量測結果的實驗。在開始測試前,定義何謂正面結果 vs 負面結果。
建置測試環境
在受控環境部署目標系統。若測試 API 託管模型,請確保於服務條款範圍內。記錄測試中的確切版本、設定與條件。
系統性執行實驗
有方法地執行實驗,記錄每筆輸入、輸出與觀察。當發現有趣之處時,抑制立即轉向的衝動 — 先完成計畫好的實驗,再調查異常。
對有希望結果迭代
當實驗顯示正面結果時,變動條件以理解邊界:哪些模型受影響?是否需要特定設定?哪些防禦可阻擋?最小可行利用為何?
階段 3:分析與描述 (3 小時)
描述漏洞特徵
精確定義漏洞:根因為何、前置條件為何、衝擊為何,以及受影響系統的範圍為何?區分您發現的特定實例與其代表的一般漏洞類別。
評估衝擊與嚴重性
評估真實世界衝擊:受影響者、攻擊者能達成什麼、利用前提條件為何?使用 CVSS 或適用於 AI 系統的類似框架。誠實面對限制 — 需要極少見前提條件的漏洞嚴重性較低。
對應至框架
將您的發現於 MITRE ATLAS 中分類。若符合既有技術,指明哪個並說明為何。若代表真正新的技術,草擬提案的 ATLAS 條目,含戰術、技術描述與程序範例。
階段 4:通告與揭露 (4 小時)
撰寫安全通告
依標準格式產出專業通告:標題、摘要、受影響系統、描述、衝擊、概念驗證、緩解與參考。面向受影響廠商的技術受眾撰寫。
發展概念驗證
建立乾淨、精簡、能展示漏洞的 PoC。包含清晰重現步驟。移除不必要複雜性。PoC 應可靠運作且安全可執行 (無破壞性操作)。
草擬揭露計畫
概述如何負責任揭露此發現:聯絡對象、建議時程、初期要分享的資訊 vs 修補後的資訊,以及當廠商未回應時的處理方式。
範例輸出
通告格式範例
# Security Advisory: [Vulnerability Title]
**Advisory ID:** AIRT-2026-001
**Date:** 2026-03-15
**Severity:** High (CVSS 7.8)
**Affected Systems:** [Models/platforms affected]
**Status:** [Disclosed / Vendor notified / Fixed]
## Summary
[2-3 sentence description of the vulnerability and its impact]
## Affected Systems
- Model A (version X.Y) — Confirmed
- Model B (version X.Y) — Confirmed
- Model C (version X.Y) — Not affected
## Description
[Detailed technical description of the vulnerability, its root cause,
and the conditions required for exploitation]
## Impact
[What an attacker can achieve, affected users/deployments, severity
justification]
## Proof of Concept
[Step-by-step reproduction instructions with exact inputs and expected
outputs]
## Mitigation
[Recommended fixes for vendors and workarounds for users]
## Timeline
- 2026-02-15: Vulnerability discovered
- 2026-02-20: Vendor notified via security@vendor.com
- 2026-03-01: Vendor acknowledged receipt
- 2026-03-15: Advisory published (90-day disclosure deadline)
## References
[Related work, prior art, framework mappings]ATLAS 對應範例
## MITRE ATLAS Classification
**Tactic:** ML Attack Staging (AML.TA0002)
**Technique:** [Existing or proposed technique ID]
**Justification:**
This vulnerability falls under [tactic] because the attacker
manipulates [component] during [phase] to achieve [outcome].
If this is a novel technique, the proposed entry would be:
**Proposed Technique: AML.TXXXX — [Technique Name]**
- Description: [What the technique does]
- Subtechniques:
- .001 — [Variant A]
- .002 — [Variant B]
- Mitigations:
- AML.MXXXX — [Mitigation description]
- Procedure examples:
- [How this technique was applied in the PoC]提示
為何區分特定漏洞實例與其代表的一般漏洞類別很重要?