AI 漏洞賞金計畫

Intermediate4 min readUpdated 2026-03-13

OpenAI、Anthropic、Google 與平台提供者之活躍 AI 漏洞賞金計畫完整指南。範圍定義、獎勵範圍、提交最佳實踐，與 AI 特定漏洞類別。

bug-bounty programs vulnerability disclosure

AI 漏洞賞金計畫獎勵安全研究者發現並負責任揭露 AI 系統中之漏洞。這些計畫與傳統軟體漏洞賞金顯著不同，因當系統行為為機率性而非確定性時，「特性」與「漏洞」間之邊界較不清楚。

活躍 AI 漏洞賞金計畫

OpenAI 漏洞賞金（經 Bugcrowd）

面向	細節
平台	Bugcrowd
獎金範圍	$200 - $20,000
於範圍	API 漏洞、身分驗證／授權缺陷、資料暴露、基礎設施安全
範圍外	模型越獄、安全繞過、提示注入（除非造成資料暴露）、內容政策違規
值得注意之排除	「模型行為問題」明確排除——此計畫聚焦傳統應用安全

研究者關鍵洞察： OpenAI 之漏洞賞金聚焦基礎設施與應用層漏洞，非模型行為。造成模型說出有害內容之提示注入於範圍外，但洩漏其他使用者資料之提示注入於範圍內，因其代表資料暴露漏洞。

Google 漏洞獎勵計畫（AI 特定）

面向	細節
平台	Google VRP（bughunters.google.com）
獎金範圍	$500 - $31,337+
於範圍	訓練資料提取、影響 Google AI 產品之模型操弄攻擊、對抗範例、Google AI 特性中之提示注入
值得注意之納入	Google 已擴展範圍以含某些 AI 特定攻擊類別，含提示注入與訓練資料提取

研究者關鍵洞察： Google 之計畫為最廣之一，明確納入 AI 特定漏洞類別。其 AI 特定獎勵於 2024 年擴展以涵蓋對 Gemini 與其他 Google AI 產品之對抗攻擊。

Anthropic 安全回報

面向	細節
平台	直接回報（security-at-anthropic.com）
獎金範圍	個案評估
於範圍	Claude 與 Anthropic 基礎設施之安全漏洞
聚焦領域	新穎安全漏洞、安全相關模型行為、基礎設施缺陷

HackerOne AI 計畫

多家公司經 HackerOne 執行 AI 特定計畫：

公司	聚焦	典型獎金
Microsoft	Bing Chat、Copilot、Azure AI	$500 - $30,000
Meta	Llama 安全、AI 產品	$500 - $40,000
多個新創	應用層級 AI 安全	$100 - $10,000

何者合格為 AI 漏洞？

「模型做了非預期之事」與「此為安全漏洞」間之區別為 AI 漏洞賞金之核心挑戰。

一般於範圍內

類別	範例	為何合格
資料暴露	提取其他使用者之對話	機密性違規
身分驗證繞過	於無憑證下存取管理端點	授權失效
訓練資料提取	檢索含 PII 之逐字訓練資料	隱私違規
成本耗盡	繞過速率限制以產生無界成本	財務影響
跨租戶資料存取	一使用者存取另一使用者之微調模型資料	隔離失效
基礎設施 RCE	經打造輸入於 API 伺服器上之程式碼執行	基礎設施受損

一般範圍外

類別	範例	為何排除
越獄	令模型產出有害文字	無超越內容之具體安全影響
幻覺	模型生成錯誤資訊	預期模型行為，非漏洞
提示注入（僅內容）	覆寫系統提示以改變模型行為	除非造成資料暴露或未授權動作
偏誤	模型展現人口偏誤	安全／倫理關切，非安全漏洞
內容政策違規	模型生成違反政策之內容	經安全團隊處理，非安全獎金

撰寫有效之 AI 漏洞報告

AI 漏洞報告需較傳統安全報告額外脈絡，因行為為機率性。

展示可重現性
含確切提示、API 參數、模型版本與時戳。提供跨多次嘗試之成功率（例如：「10 次嘗試中 7 次成功」）。AI 漏洞可能不 100% 重現——量化成功率。
證明安全影響
清楚闡明攻擊者於非預期模型輸出之外獲得什麼。資料暴露？財務損失？未授權存取？若你無法闡明具體安全影響，發現可能於範圍外。
隔離根本原因
區分模型行為問題與應用層漏洞。此為僅影響模型文字輸出之提示注入，或其經工具使用或資料存取觸發未授權動作？
提供最小重現步驟
將你之重現剝至所需之最少步驟。移除不必要之複雜度——重現愈簡單，分流愈快。
記錄環境
含 API 版本、模型識別碼、測試之日期與時間、地理區域（某些部署因區域而異），與任何相關帳戶組態。

# 範例：結構化漏洞報告範本
vulnerability_report = {
    "title": "Cross-tenant conversation data exposure via crafted API request",
    "severity": "High",
    "model_version": "gpt-4-0125-preview",
    "testing_date": "2026-02-15",
    "reproduction_rate": "7/10 attempts",
    "steps_to_reproduce": [
        "1. Create two separate accounts (Account A, Account B)",
        "2. Start a conversation with Account B containing sensitive data",
        "3. Using Account A's API key, send the following request...",
        "4. Observe Account B's conversation data in the response",
    ],
    "security_impact": "Unauthorized access to other users' conversation data",
    "root_cause_hypothesis": "Insufficient tenant isolation in conversation retrieval",
}

AI 中之負責任揭露挑戰

AI 漏洞揭露呈現獨特挑戰：

非確定性重現： 不同於以正確輸入 100% 有效之傳統 SQL 注入，AI 漏洞可能機率性成功。於回報前建立清楚之成功率。

快速模型更新： AI 提供者頻繁更新模型，有時每日。你上週找到之漏洞可能不於當前模型版本重現。記錄確切模型版本與測試日期。

範圍模糊： 「越獄」（範圍外）與「安全漏洞」（範圍內）間之線常被辯論。當懷疑時，以具體安全影響而非模型行為框架你之發現。

修補驗證： 難以驗證 AI 漏洞已「修復」，因模型更新不透明。於模型更新後消失之行為可能於下一版本重現。

最大化漏洞賞金成功

自基礎設施開始 —— AI 產品表面（API、儀表板、身分驗證）中之傳統網路應用漏洞常具較清楚之範圍與較快之支付
聚焦資料暴露 —— 任何展示未授權資料存取之發現幾乎始終於範圍內
鏈接 AI 與傳統錯誤 —— 最具影響之發現結合 AI 特定技術（提示注入）與傳統漏洞（IDOR、SSRF）以達成具體安全影響
仔細讀取範圍 —— 每個計畫對 AI 漏洞範圍之定義不同；於一計畫於範圍內之發現可能於另一計畫於範圍外
建立關係 —— 與計畫團隊互動、提供品質報告，並將自己建立為可靠之研究者

相關方法論請見偵察與技藝、基礎設施安全，與報告寫作。

參考資料

"OpenAI Bug Bounty Program" - Bugcrowd / OpenAI（2024）- OpenAI 之漏洞賞金計畫（含 AI 特定漏洞類別）之範圍與規則
"Google AI Bug Hunters Program" - Google（2024）- Google 涵蓋 AI 與 ML 系統安全之漏洞獎勵計畫
"HackerOne AI Safety Initiative" - HackerOne（2024）- 平台級之 AI 漏洞回報與範圍決定指引
"The Bug Hunter's Methodology for AI Systems" - OWASP Foundation（2024）- 於 AI 應用中尋找安全漏洞之結構化途徑

Knowledge Check

為何多數越獄被視為 AI 漏洞賞金計畫之範圍外？

AI 漏洞賞金計畫

Intermediate4 min readUpdated 2026-03-13

OpenAI、Anthropic、Google 與平台提供者之活躍 AI 漏洞賞金計畫完整指南。範圍定義、獎勵範圍、提交最佳實踐，與 AI 特定漏洞類別。

bug-bounty programs vulnerability disclosure

活躍 AI 漏洞賞金計畫

OpenAI 漏洞賞金（經 Bugcrowd）

面向	細節
平台	Bugcrowd
獎金範圍	$200 - $20,000
於範圍	API 漏洞、身分驗證／授權缺陷、資料暴露、基礎設施安全
範圍外	模型越獄、安全繞過、提示注入（除非造成資料暴露）、內容政策違規
值得注意之排除	「模型行為問題」明確排除——此計畫聚焦傳統應用安全

Google 漏洞獎勵計畫（AI 特定）

面向	細節
平台	Google VRP（bughunters.google.com）
獎金範圍	$500 - $31,337+
於範圍	訓練資料提取、影響 Google AI 產品之模型操弄攻擊、對抗範例、Google AI 特性中之提示注入
值得注意之納入	Google 已擴展範圍以含某些 AI 特定攻擊類別，含提示注入與訓練資料提取

Anthropic 安全回報

面向	細節
平台	直接回報（security-at-anthropic.com）
獎金範圍	個案評估
於範圍	Claude 與 Anthropic 基礎設施之安全漏洞
聚焦領域	新穎安全漏洞、安全相關模型行為、基礎設施缺陷

HackerOne AI 計畫

多家公司經 HackerOne 執行 AI 特定計畫：

公司	聚焦	典型獎金
Microsoft	Bing Chat、Copilot、Azure AI	$500 - $30,000
Meta	Llama 安全、AI 產品	$500 - $40,000
多個新創	應用層級 AI 安全	$100 - $10,000

何者合格為 AI 漏洞？

「模型做了非預期之事」與「此為安全漏洞」間之區別為 AI 漏洞賞金之核心挑戰。

一般於範圍內

類別	範例	為何合格
資料暴露	提取其他使用者之對話	機密性違規
身分驗證繞過	於無憑證下存取管理端點	授權失效
訓練資料提取	檢索含 PII 之逐字訓練資料	隱私違規
成本耗盡	繞過速率限制以產生無界成本	財務影響
跨租戶資料存取	一使用者存取另一使用者之微調模型資料	隔離失效
基礎設施 RCE	經打造輸入於 API 伺服器上之程式碼執行	基礎設施受損

一般範圍外

類別	範例	為何排除
越獄	令模型產出有害文字	無超越內容之具體安全影響
幻覺	模型生成錯誤資訊	預期模型行為，非漏洞
提示注入（僅內容）	覆寫系統提示以改變模型行為	除非造成資料暴露或未授權動作
偏誤	模型展現人口偏誤	安全／倫理關切，非安全漏洞
內容政策違規	模型生成違反政策之內容	經安全團隊處理，非安全獎金

撰寫有效之 AI 漏洞報告

AI 漏洞報告需較傳統安全報告額外脈絡，因行為為機率性。

展示可重現性
含確切提示、API 參數、模型版本與時戳。提供跨多次嘗試之成功率（例如：「10 次嘗試中 7 次成功」）。AI 漏洞可能不 100% 重現——量化成功率。
證明安全影響
清楚闡明攻擊者於非預期模型輸出之外獲得什麼。資料暴露？財務損失？未授權存取？若你無法闡明具體安全影響，發現可能於範圍外。
隔離根本原因
區分模型行為問題與應用層漏洞。此為僅影響模型文字輸出之提示注入，或其經工具使用或資料存取觸發未授權動作？
提供最小重現步驟
將你之重現剝至所需之最少步驟。移除不必要之複雜度——重現愈簡單，分流愈快。
記錄環境
含 API 版本、模型識別碼、測試之日期與時間、地理區域（某些部署因區域而異），與任何相關帳戶組態。

# 範例：結構化漏洞報告範本
vulnerability_report = {
    "title": "Cross-tenant conversation data exposure via crafted API request",
    "severity": "High",
    "model_version": "gpt-4-0125-preview",
    "testing_date": "2026-02-15",
    "reproduction_rate": "7/10 attempts",
    "steps_to_reproduce": [
        "1. Create two separate accounts (Account A, Account B)",
        "2. Start a conversation with Account B containing sensitive data",
        "3. Using Account A's API key, send the following request...",
        "4. Observe Account B's conversation data in the response",
    ],
    "security_impact": "Unauthorized access to other users' conversation data",
    "root_cause_hypothesis": "Insufficient tenant isolation in conversation retrieval",
}

AI 中之負責任揭露挑戰

AI 漏洞揭露呈現獨特挑戰：

非確定性重現： 不同於以正確輸入 100% 有效之傳統 SQL 注入，AI 漏洞可能機率性成功。於回報前建立清楚之成功率。

快速模型更新： AI 提供者頻繁更新模型，有時每日。你上週找到之漏洞可能不於當前模型版本重現。記錄確切模型版本與測試日期。

範圍模糊： 「越獄」（範圍外）與「安全漏洞」（範圍內）間之線常被辯論。當懷疑時，以具體安全影響而非模型行為框架你之發現。

修補驗證： 難以驗證 AI 漏洞已「修復」，因模型更新不透明。於模型更新後消失之行為可能於下一版本重現。

最大化漏洞賞金成功

自基礎設施開始 —— AI 產品表面（API、儀表板、身分驗證）中之傳統網路應用漏洞常具較清楚之範圍與較快之支付
聚焦資料暴露 —— 任何展示未授權資料存取之發現幾乎始終於範圍內
鏈接 AI 與傳統錯誤 —— 最具影響之發現結合 AI 特定技術（提示注入）與傳統漏洞（IDOR、SSRF）以達成具體安全影響
仔細讀取範圍 —— 每個計畫對 AI 漏洞範圍之定義不同；於一計畫於範圍內之發現可能於另一計畫於範圍外
建立關係 —— 與計畫團隊互動、提供品質報告，並將自己建立為可靠之研究者

相關方法論請見偵察與技藝、基礎設施安全，與報告寫作。

參考資料

"OpenAI Bug Bounty Program" - Bugcrowd / OpenAI（2024）- OpenAI 之漏洞賞金計畫（含 AI 特定漏洞類別）之範圍與規則
"Google AI Bug Hunters Program" - Google（2024）- Google 涵蓋 AI 與 ML 系統安全之漏洞獎勵計畫
"HackerOne AI Safety Initiative" - HackerOne（2024）- 平台級之 AI 漏洞回報與範圍決定指引
"The Bug Hunter's Methodology for AI Systems" - OWASP Foundation（2024）- 於 AI 應用中尋找安全漏洞之結構化途徑

Knowledge Check

為何多數越獄被視為 AI 漏洞賞金計畫之範圍外？

AI 漏洞賞金計畫

活躍 AI 漏洞賞金計畫

OpenAI 漏洞賞金（經 Bugcrowd）

Google 漏洞獎勵計畫（AI 特定）

Anthropic 安全回報

HackerOne AI 計畫

何者合格為 AI 漏洞？

一般於範圍內

一般範圍外

撰寫有效之 AI 漏洞報告

展示可重現性

證明安全影響

隔離根本原因

提供最小重現步驟

記錄環境

AI 中之負責任揭露挑戰

最大化漏洞賞金成功

相關主題

參考資料

AI 漏洞賞金計畫

活躍 AI 漏洞賞金計畫

OpenAI 漏洞賞金（經 Bugcrowd）

Google 漏洞獎勵計畫（AI 特定）

Anthropic 安全回報

HackerOne AI 計畫

何者合格為 AI 漏洞？

一般於範圍內

一般範圍外

撰寫有效之 AI 漏洞報告

展示可重現性

證明安全影響

隔離根本原因

提供最小重現步驟

記錄環境

AI 中之負責任揭露挑戰

最大化漏洞賞金成功

相關主題

參考資料

AI 漏洞賞金計畫

展示可重現性

證明安全影響

隔離根本原因

提供最小重現步驟

記錄環境

Related articles

AI 漏洞賞金計畫

展示可重現性

證明安全影響

隔離根本原因

提供最小重現步驟

記錄環境

Related articles