頂石專案:漏洞研究專案

專家4 分鐘閱讀更新於 2026-03-15

辨識並負責任揭露一類新穎的 AI 漏洞,產出顧問級撰寫、概念驗證與 MITRE ATLAS 對應。

capstone vulnerability-research disclosure expert advisory

概觀

漏洞研究是透過系統性分析、創造性實驗與對系統內部的深入理解,發掘先前未知安全議題的實務。在 AI 安全領域,這意味著找出超越 OWASP Top 10 for LLMs 或 MITRE ATLAS 已記錄類別的新型利用方式,用於語言模型、代理系統或 AI 管道。

本頂石專案挑戰您超越套用已知技術,發掘真正新穎 — 或至少是足以獨立通告的新穎變體。交付物是可用於對 AI 供應商負責任揭露或於安全會議發表的專業安全通告。

先備條件

提示詞注入 — 深入理解注入機制以辨識新穎變體
越獄技術 — 熟悉既知繞過以避免重複發現
LLM 內部進階 — 理解模型架構可對漏洞進行機制層級推理
代理式利用 — 代理與工具呼叫的攻擊面
AI 威脅全景 — 已知漏洞的現況
強分析思維與耐心 — 漏洞研究會遇到許多死胡同

專案簡介

情境

您是 AI 安全實驗室的研究員。團隊使命是在惡意行為者之前發掘新型 AI 系統漏洞類別。您獲得一段研究衝刺時間,以調查新穎攻擊面、發展概念驗證,並產出可發表的通告。

研究方向

請從以下研究領域擇一 (或提出自己的方向並說明理由):

跨模型攻擊遷移 — 為某種模型架構設計的攻擊能否可靠地遷移到其他架構?什麼性質使攻擊具可遷移性?
多模態注入向量 — 在多模態系統中,影像、音訊或結構化資料格式如何作為提示詞注入載體?
代理記憶操縱 — 攻擊者能否跨會話損壞、投毒或外洩對話代理的持久記憶?
工具結構描述利用 — 是否可透過精心打造的工具描述或參數結構描述,系統性操縱函式呼叫行為?
微調殘留萃取 — 即使供應商宣稱資料未保留,仍能否從微調後模型中萃取微調資料?
推理鏈操縱 — 思維鏈或推理軌跡能否被操縱,以產生看似邏輯合理但實為錯誤的結論?

研究方法論

1. Literature review: What is already known?
       ↓
2. Hypothesis formation: What might be possible?
       ↓
3. Experiment design: How to test the hypothesis?
       ↓
4. Controlled testing: Execute experiments
       ↓
5. Analysis: Characterize the vulnerability
       ↓
6. Validation: Confirm across conditions
       ↓
7. Advisory: Document for disclosure

交付物

主要交付物

交付物	描述	權重
安全通告	專業通告文件 (3-5 頁)	35%
概念驗證	可運作的 PoC 與重現說明	25%
MITRE ATLAS 對應	於 ATLAS 框架內分類 (或提議新技術)	10%
研究日誌	完整研究過程記錄,含失敗嘗試	15%
負責任揭露計畫	您將如何對受影響方揭露	15%

評分準則

新穎性 (25%) — 發現代表真實的新洞察,而非已記錄技術的微小變體
技術深度 (20%) — 通告展現對漏洞為何存在及其根因的深入理解
PoC 品質 (20%) — 概念驗證可靠、精簡,能清楚展示漏洞且無不必要複雜性
通告撰寫 (20%) — 通告清晰、結構良好,適合專業受眾
負責任實踐 (15%) — 研究符合倫理,揭露計畫經過深思熟慮

分階段做法

階段 1:文獻回顧與假設 (3 小時)

調查既有研究
審視目前 MITRE ATLAS 矩陣、OWASP Top 10 for LLMs 與近期 AI 安全發表 (arXiv、安全研討會)。建立您所選研究領域的既有知識地圖。找出前沿 — 已記錄知識在哪裡結束?
辨識研究缺口
尋找文件提到「這可能可行」但無人展示過的領域,或已知技術尚未對較新模型架構或部署模式進行測試的領域。
提出可測試假設
撰寫 2-3 個具體、可測試的假設。好的假設可被證偽且具體:「模型 X 在處理多模態輸入時會遵循嵌入於影像 alt-text 的指令」優於「多模態模型可能有安全議題」。

階段 2:實驗設計與執行 (6 小時)

設計受控實驗
為每個假設設計具明確成功判準、控制條件與可量測結果的實驗。在開始測試前,定義何謂正面結果 vs 負面結果。
建置測試環境
在受控環境部署目標系統。若測試 API 託管模型,請確保於服務條款範圍內。記錄測試中的確切版本、設定與條件。
系統性執行實驗
有方法地執行實驗,記錄每筆輸入、輸出與觀察。當發現有趣之處時,抑制立即轉向的衝動 — 先完成計畫好的實驗,再調查異常。
對有希望結果迭代
當實驗顯示正面結果時,變動條件以理解邊界:哪些模型受影響?是否需要特定設定?哪些防禦可阻擋?最小可行利用為何?

階段 3:分析與描述 (3 小時)

描述漏洞特徵
精確定義漏洞:根因為何、前置條件為何、衝擊為何,以及受影響系統的範圍為何?區分您發現的特定實例與其代表的一般漏洞類別。
評估衝擊與嚴重性
評估真實世界衝擊:受影響者、攻擊者能達成什麼、利用前提條件為何?使用 CVSS 或適用於 AI 系統的類似框架。誠實面對限制 — 需要極少見前提條件的漏洞嚴重性較低。
對應至框架
將您的發現於 MITRE ATLAS 中分類。若符合既有技術,指明哪個並說明為何。若代表真正新的技術,草擬提案的 ATLAS 條目,含戰術、技術描述與程序範例。

階段 4:通告與揭露 (4 小時)

撰寫安全通告
依標準格式產出專業通告:標題、摘要、受影響系統、描述、衝擊、概念驗證、緩解與參考。面向受影響廠商的技術受眾撰寫。
發展概念驗證
建立乾淨、精簡、能展示漏洞的 PoC。包含清晰重現步驟。移除不必要複雜性。PoC 應可靠運作且安全可執行 (無破壞性操作)。
草擬揭露計畫
概述如何負責任揭露此發現:聯絡對象、建議時程、初期要分享的資訊 vs 修補後的資訊,以及當廠商未回應時的處理方式。

範例輸出

通告格式範例

# Security Advisory: [Vulnerability Title]
 
**Advisory ID:** AIRT-2026-001
**Date:** 2026-03-15
**Severity:** High (CVSS 7.8)
**Affected Systems:** [Models/platforms affected]
**Status:** [Disclosed / Vendor notified / Fixed]
 
## Summary
[2-3 sentence description of the vulnerability and its impact]
 
## Affected Systems
- Model A (version X.Y) — Confirmed
- Model B (version X.Y) — Confirmed
- Model C (version X.Y) — Not affected
 
## Description
[Detailed technical description of the vulnerability, its root cause,
and the conditions required for exploitation]
 
## Impact
[What an attacker can achieve, affected users/deployments, severity
justification]
 
## Proof of Concept
[Step-by-step reproduction instructions with exact inputs and expected
outputs]
 
## Mitigation
[Recommended fixes for vendors and workarounds for users]
 
## Timeline
- 2026-02-15: Vulnerability discovered
- 2026-02-20: Vendor notified via security@vendor.com
- 2026-03-01: Vendor acknowledged receipt
- 2026-03-15: Advisory published (90-day disclosure deadline)
 
## References
[Related work, prior art, framework mappings]

ATLAS 對應範例

## MITRE ATLAS Classification
 
**Tactic:** ML Attack Staging (AML.TA0002)
**Technique:** [Existing or proposed technique ID]
 
**Justification:**
This vulnerability falls under [tactic] because the attacker
manipulates [component] during [phase] to achieve [outcome].
 
If this is a novel technique, the proposed entry would be:
 
**Proposed Technique: AML.TXXXX — [Technique Name]**
- Description: [What the technique does]
- Subtechniques:
  - .001 — [Variant A]
  - .002 — [Variant B]
- Mitigations:
  - AML.MXXXX — [Mitigation description]
- Procedure examples:
  - [How this technique was applied in the PoC]

提示

Knowledge Check

為何區分特定漏洞實例與其代表的一般漏洞類別很重要?

頂石專案:漏洞研究專案

專家4 分鐘閱讀更新於 2026-03-15

辨識並負責任揭露一類新穎的 AI 漏洞,產出顧問級撰寫、概念驗證與 MITRE ATLAS 對應。

capstone vulnerability-research disclosure expert advisory

概觀

先備條件

提示詞注入 — 深入理解注入機制以辨識新穎變體
越獄技術 — 熟悉既知繞過以避免重複發現
LLM 內部進階 — 理解模型架構可對漏洞進行機制層級推理
代理式利用 — 代理與工具呼叫的攻擊面
AI 威脅全景 — 已知漏洞的現況
強分析思維與耐心 — 漏洞研究會遇到許多死胡同

專案簡介

情境

研究方向

請從以下研究領域擇一 (或提出自己的方向並說明理由):

跨模型攻擊遷移 — 為某種模型架構設計的攻擊能否可靠地遷移到其他架構?什麼性質使攻擊具可遷移性?
多模態注入向量 — 在多模態系統中,影像、音訊或結構化資料格式如何作為提示詞注入載體?
代理記憶操縱 — 攻擊者能否跨會話損壞、投毒或外洩對話代理的持久記憶?
工具結構描述利用 — 是否可透過精心打造的工具描述或參數結構描述,系統性操縱函式呼叫行為?
微調殘留萃取 — 即使供應商宣稱資料未保留,仍能否從微調後模型中萃取微調資料?
推理鏈操縱 — 思維鏈或推理軌跡能否被操縱,以產生看似邏輯合理但實為錯誤的結論?

研究方法論

1. Literature review: What is already known?
       ↓
2. Hypothesis formation: What might be possible?
       ↓
3. Experiment design: How to test the hypothesis?
       ↓
4. Controlled testing: Execute experiments
       ↓
5. Analysis: Characterize the vulnerability
       ↓
6. Validation: Confirm across conditions
       ↓
7. Advisory: Document for disclosure

交付物

主要交付物

交付物	描述	權重
安全通告	專業通告文件 (3-5 頁)	35%
概念驗證	可運作的 PoC 與重現說明	25%
MITRE ATLAS 對應	於 ATLAS 框架內分類 (或提議新技術)	10%
研究日誌	完整研究過程記錄,含失敗嘗試	15%
負責任揭露計畫	您將如何對受影響方揭露	15%

評分準則

新穎性 (25%) — 發現代表真實的新洞察,而非已記錄技術的微小變體
技術深度 (20%) — 通告展現對漏洞為何存在及其根因的深入理解
PoC 品質 (20%) — 概念驗證可靠、精簡,能清楚展示漏洞且無不必要複雜性
通告撰寫 (20%) — 通告清晰、結構良好,適合專業受眾
負責任實踐 (15%) — 研究符合倫理,揭露計畫經過深思熟慮

分階段做法

階段 1:文獻回顧與假設 (3 小時)

調查既有研究
審視目前 MITRE ATLAS 矩陣、OWASP Top 10 for LLMs 與近期 AI 安全發表 (arXiv、安全研討會)。建立您所選研究領域的既有知識地圖。找出前沿 — 已記錄知識在哪裡結束?
辨識研究缺口
尋找文件提到「這可能可行」但無人展示過的領域,或已知技術尚未對較新模型架構或部署模式進行測試的領域。
提出可測試假設
撰寫 2-3 個具體、可測試的假設。好的假設可被證偽且具體:「模型 X 在處理多模態輸入時會遵循嵌入於影像 alt-text 的指令」優於「多模態模型可能有安全議題」。

階段 2:實驗設計與執行 (6 小時)

設計受控實驗
為每個假設設計具明確成功判準、控制條件與可量測結果的實驗。在開始測試前,定義何謂正面結果 vs 負面結果。
建置測試環境
在受控環境部署目標系統。若測試 API 託管模型,請確保於服務條款範圍內。記錄測試中的確切版本、設定與條件。
系統性執行實驗
有方法地執行實驗,記錄每筆輸入、輸出與觀察。當發現有趣之處時,抑制立即轉向的衝動 — 先完成計畫好的實驗,再調查異常。
對有希望結果迭代
當實驗顯示正面結果時,變動條件以理解邊界:哪些模型受影響?是否需要特定設定?哪些防禦可阻擋?最小可行利用為何?

階段 3:分析與描述 (3 小時)

描述漏洞特徵
精確定義漏洞:根因為何、前置條件為何、衝擊為何,以及受影響系統的範圍為何?區分您發現的特定實例與其代表的一般漏洞類別。
評估衝擊與嚴重性
評估真實世界衝擊:受影響者、攻擊者能達成什麼、利用前提條件為何?使用 CVSS 或適用於 AI 系統的類似框架。誠實面對限制 — 需要極少見前提條件的漏洞嚴重性較低。
對應至框架
將您的發現於 MITRE ATLAS 中分類。若符合既有技術,指明哪個並說明為何。若代表真正新的技術,草擬提案的 ATLAS 條目,含戰術、技術描述與程序範例。

階段 4:通告與揭露 (4 小時)

撰寫安全通告
依標準格式產出專業通告:標題、摘要、受影響系統、描述、衝擊、概念驗證、緩解與參考。面向受影響廠商的技術受眾撰寫。
發展概念驗證
建立乾淨、精簡、能展示漏洞的 PoC。包含清晰重現步驟。移除不必要複雜性。PoC 應可靠運作且安全可執行 (無破壞性操作)。
草擬揭露計畫
概述如何負責任揭露此發現:聯絡對象、建議時程、初期要分享的資訊 vs 修補後的資訊,以及當廠商未回應時的處理方式。

範例輸出

通告格式範例

# Security Advisory: [Vulnerability Title]
 
**Advisory ID:** AIRT-2026-001
**Date:** 2026-03-15
**Severity:** High (CVSS 7.8)
**Affected Systems:** [Models/platforms affected]
**Status:** [Disclosed / Vendor notified / Fixed]
 
## Summary
[2-3 sentence description of the vulnerability and its impact]
 
## Affected Systems
- Model A (version X.Y) — Confirmed
- Model B (version X.Y) — Confirmed
- Model C (version X.Y) — Not affected
 
## Description
[Detailed technical description of the vulnerability, its root cause,
and the conditions required for exploitation]
 
## Impact
[What an attacker can achieve, affected users/deployments, severity
justification]
 
## Proof of Concept
[Step-by-step reproduction instructions with exact inputs and expected
outputs]
 
## Mitigation
[Recommended fixes for vendors and workarounds for users]
 
## Timeline
- 2026-02-15: Vulnerability discovered
- 2026-02-20: Vendor notified via security@vendor.com
- 2026-03-01: Vendor acknowledged receipt
- 2026-03-15: Advisory published (90-day disclosure deadline)
 
## References
[Related work, prior art, framework mappings]

ATLAS 對應範例

## MITRE ATLAS Classification
 
**Tactic:** ML Attack Staging (AML.TA0002)
**Technique:** [Existing or proposed technique ID]
 
**Justification:**
This vulnerability falls under [tactic] because the attacker
manipulates [component] during [phase] to achieve [outcome].
 
If this is a novel technique, the proposed entry would be:
 
**Proposed Technique: AML.TXXXX — [Technique Name]**
- Description: [What the technique does]
- Subtechniques:
  - .001 — [Variant A]
  - .002 — [Variant B]
- Mitigations:
  - AML.MXXXX — [Mitigation description]
- Procedure examples:
  - [How this technique was applied in the PoC]

提示

Knowledge Check

為何區分特定漏洞實例與其代表的一般漏洞類別很重要?

頂石專案:漏洞研究專案

調查既有研究

辨識研究缺口

提出可測試假設

設計受控實驗

建置測試環境

系統性執行實驗

對有希望結果迭代

描述漏洞特徵

評估衝擊與嚴重性

對應至框架

撰寫安全通告

發展概念驗證

草擬揭露計畫

相關文章

頂石專案:漏洞研究專案

調查既有研究

辨識研究缺口

提出可測試假設

設計受控實驗

建置測試環境

系統性執行實驗

對有希望結果迭代

描述漏洞特徵

評估衝擊與嚴重性

對應至框架

撰寫安全通告

發展概念驗證

草擬揭露計畫

相關文章