AI 漏洞賞金計畫
OpenAI、Anthropic、Google 與平台提供者之活躍 AI 漏洞賞金計畫完整指南。範圍定義、獎勵範圍、提交最佳實踐,與 AI 特定漏洞類別。
AI 漏洞賞金計畫獎勵安全研究者發現並負責任揭露 AI 系統中之漏洞。這些計畫與傳統軟體漏洞賞金顯著不同,因當系統行為為機率性而非確定性時,「特性」與「漏洞」間之邊界較不清楚。
活躍 AI 漏洞賞金計畫
OpenAI 漏洞賞金(經 Bugcrowd)
| 面向 | 細節 |
|---|---|
| 平台 | Bugcrowd |
| 獎金範圍 | $200 - $20,000 |
| 於範圍 | API 漏洞、身分驗證/授權缺陷、資料暴露、基礎設施安全 |
| 範圍外 | 模型越獄、安全繞過、提示注入(除非造成資料暴露)、內容政策違規 |
| 值得注意之排除 | 「模型行為問題」明確排除——此計畫聚焦傳統應用安全 |
研究者關鍵洞察: OpenAI 之漏洞賞金聚焦基礎設施與應用層漏洞,非模型行為。造成模型說出有害內容之提示注入於範圍外,但洩漏其他使用者資料之提示注入於範圍內,因其代表資料暴露漏洞。
Google 漏洞獎勵計畫(AI 特定)
| 面向 | 細節 |
|---|---|
| 平台 | Google VRP(bughunters.google.com) |
| 獎金範圍 | $500 - $31,337+ |
| 於範圍 | 訓練資料提取、影響 Google AI 產品之模型操弄攻擊、對抗範例、Google AI 特性中之提示注入 |
| 值得注意之納入 | Google 已擴展範圍以含某些 AI 特定攻擊類別,含提示注入與訓練資料提取 |
研究者關鍵洞察: Google 之計畫為最廣之一,明確納入 AI 特定漏洞類別。其 AI 特定獎勵於 2024 年擴展以涵蓋對 Gemini 與其他 Google AI 產品之對抗攻擊。
Anthropic 安全回報
| 面向 | 細節 |
|---|---|
| 平台 | 直接回報(security-at-anthropic.com) |
| 獎金範圍 | 個案評估 |
| 於範圍 | Claude 與 Anthropic 基礎設施之安全漏洞 |
| 聚焦領域 | 新穎安全漏洞、安全相關模型行為、基礎設施缺陷 |
HackerOne AI 計畫
多家公司經 HackerOne 執行 AI 特定計畫:
| 公司 | 聚焦 | 典型獎金 |
|---|---|---|
| Microsoft | Bing Chat、Copilot、Azure AI | $500 - $30,000 |
| Meta | Llama 安全、AI 產品 | $500 - $40,000 |
| 多個新創 | 應用層級 AI 安全 | $100 - $10,000 |
何者合格為 AI 漏洞?
「模型做了非預期之事」與「此為安全漏洞」間之區別為 AI 漏洞賞金之核心挑戰。
一般於範圍內
| 類別 | 範例 | 為何合格 |
|---|---|---|
| 資料暴露 | 提取其他使用者之對話 | 機密性違規 |
| 身分驗證繞過 | 於無憑證下存取管理端點 | 授權失效 |
| 訓練資料提取 | 檢索含 PII 之逐字訓練資料 | 隱私違規 |
| 成本耗盡 | 繞過速率限制以產生無界成本 | 財務影響 |
| 跨租戶資料存取 | 一使用者存取另一使用者之微調模型資料 | 隔離失效 |
| 基礎設施 RCE | 經打造輸入於 API 伺服器上之程式碼執行 | 基礎設施受損 |
一般範圍外
| 類別 | 範例 | 為何排除 |
|---|---|---|
| 越獄 | 令模型產出有害文字 | 無超越內容之具體安全影響 |
| 幻覺 | 模型生成錯誤資訊 | 預期模型行為,非漏洞 |
| 提示注入(僅內容) | 覆寫系統提示以改變模型行為 | 除非造成資料暴露或未授權動作 |
| 偏誤 | 模型展現人口偏誤 | 安全/倫理關切,非安全漏洞 |
| 內容政策違規 | 模型生成違反政策之內容 | 經安全團隊處理,非安全獎金 |
撰寫有效之 AI 漏洞報告
AI 漏洞報告需較傳統安全報告額外脈絡,因行為為機率性。
展示可重現性
含確切提示、API 參數、模型版本與時戳。提供跨多次嘗試之成功率(例如:「10 次嘗試中 7 次成功」)。AI 漏洞可能不 100% 重現——量化成功率。
證明安全影響
清楚闡明攻擊者於非預期模型輸出之外獲得什麼。資料暴露?財務損失?未授權存取?若你無法闡明具體安全影響,發現可能於範圍外。
隔離根本原因
區分模型行為問題與應用層漏洞。此為僅影響模型文字輸出之提示注入,或其經工具使用或資料存取觸發未授權動作?
提供最小重現步驟
將你之重現剝至所需之最少步驟。移除不必要之複雜度——重現愈簡單,分流愈快。
記錄環境
含 API 版本、模型識別碼、測試之日期與時間、地理區域(某些部署因區域而異),與任何相關帳戶組態。
# 範例:結構化漏洞報告範本
vulnerability_report = {
"title": "Cross-tenant conversation data exposure via crafted API request",
"severity": "High",
"model_version": "gpt-4-0125-preview",
"testing_date": "2026-02-15",
"reproduction_rate": "7/10 attempts",
"steps_to_reproduce": [
"1. Create two separate accounts (Account A, Account B)",
"2. Start a conversation with Account B containing sensitive data",
"3. Using Account A's API key, send the following request...",
"4. Observe Account B's conversation data in the response",
],
"security_impact": "Unauthorized access to other users' conversation data",
"root_cause_hypothesis": "Insufficient tenant isolation in conversation retrieval",
}AI 中之負責任揭露挑戰
AI 漏洞揭露呈現獨特挑戰:
非確定性重現: 不同於以正確輸入 100% 有效之傳統 SQL 注入,AI 漏洞可能機率性成功。於回報前建立清楚之成功率。
快速模型更新: AI 提供者頻繁更新模型,有時每日。你上週找到之漏洞可能不於當前模型版本重現。記錄確切模型版本與測試日期。
範圍模糊: 「越獄」(範圍外)與「安全漏洞」(範圍內)間之線常被辯論。當懷疑時,以具體安全影響而非模型行為框架你之發現。
修補驗證: 難以驗證 AI 漏洞已「修復」,因模型更新不透明。於模型更新後消失之行為可能於下一版本重現。
最大化漏洞賞金成功
- 自基礎設施開始 —— AI 產品表面(API、儀表板、身分驗證)中之傳統網路應用漏洞常具較清楚之範圍與較快之支付
- 聚焦資料暴露 —— 任何展示未授權資料存取之發現幾乎始終於範圍內
- 鏈接 AI 與傳統錯誤 —— 最具影響之發現結合 AI 特定技術(提示注入)與傳統漏洞(IDOR、SSRF)以達成具體安全影響
- 仔細讀取範圍 —— 每個計畫對 AI 漏洞範圍之定義不同;於一計畫於範圍內之發現可能於另一計畫於範圍外
- 建立關係 —— 與計畫團隊互動、提供品質報告,並將自己建立為可靠之研究者
相關主題
- 值得注意之 AI 安全事件 -- 事件資料庫與分析框架
- 自 AI 安全事件習得之教訓 -- 自已揭露漏洞之重複模式
- 授權、合約與責任 -- 漏洞賞金參與之法律考量
- 倫理與負責任揭露 -- 為 AI 漏洞發現之揭露指引
參考資料
- "OpenAI Bug Bounty Program" - Bugcrowd / OpenAI(2024)- OpenAI 之漏洞賞金計畫(含 AI 特定漏洞類別)之範圍與規則
- "Google AI Bug Hunters Program" - Google(2024)- Google 涵蓋 AI 與 ML 系統安全之漏洞獎勵計畫
- "HackerOne AI Safety Initiative" - HackerOne(2024)- 平台級之 AI 漏洞回報與範圍決定指引
- "The Bug Hunter's Methodology for AI Systems" - OWASP Foundation(2024)- 於 AI 應用中尋找安全漏洞之結構化途徑
為何多數越獄被視為 AI 漏洞賞金計畫之範圍外?