聚焦 AI 的漏洞懸賞計畫
參與與經營 AI 專屬漏洞懸賞計畫的指南,涵蓋主要平台、AI 漏洞類別與獎金結構。
概覽
漏洞懸賞計畫已成為辨識 AI 系統資安漏洞的重要管道。當 AI 實驗室與部署 AI 產品的公司認知到內部測試的局限後,紛紛設立懸賞計畫,邀請外部研究者回報漏洞以換取獎金。這些計畫延伸了內部紅隊的觸角,藉由全球研究社群在做法多元性與測試量上所提供的能量,擴大驗證能力。
對個別從業者而言,AI 漏洞懸賞提供了收入、建立作品集的機會,以及原本難以存取的生產環境 AI 系統。對組織而言,它們提供可擴展的漏洞發掘能力,與結構化的紅隊委託形成互補。本文涵蓋兩端視角:如何成為成功的 AI 漏洞懸賞計畫參與者,以及如何為組織設計並營運有效的 AI 專屬懸賞計畫。
AI 漏洞懸賞的地景
主要 AI 實驗室的計畫
多家主要 AI 實驗室營運的懸賞計畫,明確涵蓋自家的 AI 模型與產品。
OpenAI Bug Bounty Program:於 2023 年推出,涵蓋 ChatGPT、API 及 plugins/GPTs。獎金從低嚴重度的 200 美元,到關鍵漏洞的 20,000 美元不等。計畫寄存於 Bugcrowd。值得注意的是,OpenAI 的計畫明確將模型越獄與安全繞過排除於獎金資格之外,聚焦於傳統資安漏洞 (認證繞過、資料外洩、應用層級的注入攻擊) 與 API 濫用向量。能導致資料外洩或未授權動作執行的提示詞注入通常在範圍內,而單純的內容政策繞過則不在。
Google Vulnerability Reward Program (VRP):Google 的 VRP 涵蓋 Bard/Gemini、Vertex AI,以及 Google 產品中的 AI 功能。Google 已將 VRP 擴充以納入 AI 專屬漏洞類別,包括提示詞注入、訓練資料萃取與模型操縱。獎金依循 Google 標準 VRP 分級制度,AI 專屬發現可能取得加成獎金。Google 也贊助了特定的 AI 紅隊活動與競賽。
Microsoft Bug Bounty Program:Microsoft 的計畫涵蓋 Azure AI 服務、Copilot 產品與 Bing AI 整合。AI 專屬發現,包括提示詞注入、內容過濾繞過與資料外洩,皆可領取獎金。Microsoft 已發布詳盡指南說明何謂合格的 AI 漏洞,對有志的懸賞獵人極具參考價值。
Anthropic:Anthropic 對 Claude 相關的資安問題設有漏洞揭露流程。其做法強調負責任的揭露,並參與過結構化的外部紅隊演練。具體揭露計畫細節請以其官網為準。
Meta:Meta 的計畫涵蓋其產品中的 AI 功能,包括整合進 WhatsApp、Instagram、Facebook 的 AI 助理,以及研究模型釋出 (LLaMA 系列)。Meta 開放原始碼模型的 AI 安全議題,則透過另一條負責任揭露流程處理。
平台型計畫
漏洞懸賞平台彙整多組織的計畫,提供集中的提交、分流與付款基礎設施。
HackerOne:最大的漏洞懸賞平台,寄存多家科技公司的 AI 計畫。HackerOne 已在其分類法中加入 AI 漏洞類別,並為研究者提供回報 AI 專屬發現的指南。
Bugcrowd:寄存多項 AI 專屬計畫,包括 OpenAI。Bugcrowd 已在其分流團隊內部投資於 AI 安全專業,以處理 AI 漏洞報告的獨特特性。
Intigriti:以歐洲為中心的平台,AI 計畫覆蓋面持續擴大。對瞄準受 EU AI Act 規範的歐洲組織的研究者而言相當重要。
AI 專屬的懸賞活動
除了持續營運的懸賞計畫,針對性的 AI 安全活動也提供集中的獎金機會。
DEF CON AI Village 紅隊活動:DEF CON 的 AI Village 舉辦過大規模 AI 紅隊活動,參與者在競賽情境中測試主要 AI 系統。2023 與 2024 年的活動涵蓋 OpenAI、Anthropic、Google、Meta 的模型測試,發現透過結構化揭露流程通報。這類活動提供實際面對生產環境 AI 系統的經驗,以及社群人脈交流的機會。
AI 安全 CTF:多個組織舉辦聚焦 AI 的 CTF 競賽,雖非傳統懸賞計畫,但提供類似的技能養成機會,有時亦附有獎金。
政府贊助的 AI 測試:美國政府已舉辦過 AI 紅隊活動,DARPA AI Cyber Challenge 等計畫也包含 AI 安全元素。英國 AI Safety Institute 進行模型評估,部分評估會邀集外部研究者參與。
為懸賞尋找 AI 漏洞
高價值漏洞類別
理解哪些漏洞類型最可能獲獎,有助聚焦精力。
透過 AI 功能進行資料外洩 (高價值):證明 AI 系統可被操縱,洩露不應揭露的資料 —— 無論是訓練資料、其他使用者對話、系統組態或連接資料庫內容 —— 通常都能取得高嚴重度的獎金。這包括 RAG 系統中存取其他租戶資料的間接提示詞注入、跨工作階段的對話歷史外洩,以及從模型上下文中萃取 API 金鑰或憑證。
未授權動作執行 (高價值):在代理式 AI 系統中,證明 AI 可被操縱去執行超出預期範圍的動作 —— 寄送未授權的電子郵件、修改資料、透過工具使用存取受限資源 —— 屬於高嚴重度。其影響類似於傳統的權限提升漏洞。
透過 AI 進行認證與授權繞過 (高價值):利用 AI 功能繞過認證、存取其他使用者資料或提升權限。例如,操縱 AI 助理透過工具呼叫能力存取另一使用者的帳號資訊。這類發現結合了 AI 漏洞與傳統資安影響,因此價值高。
AI SaaS 中的跨租戶資料存取 (高價值):多租戶 AI 系統若允許一租戶的資料影響另一租戶的 AI 互動,即屬重大漏洞。透過共用模型上下文、嵌入相似性利用或 RAG 管線污染展示跨租戶資料外洩,通常都能獲得優厚獎金。
具可證明影響的提示詞注入 (中-高價值):純粹的提示詞注入 (覆蓋系統指令) 本身價值較低,但導致具體影響 (資料存取、動作執行、具真實世界後果的安全繞過) 的提示詞注入則以較高嚴重度受獎。
安全過濾繞過 (價值不一):許多計畫明確排除純粹的越獄與內容政策繞過。然而,具有具體影響的安全繞過 —— 例如能助長詐欺的內容、違反法規要求的輸出,或在高風險領域 (醫療、金融、法律建議) 繞過安全措施 —— 可能仍在範圍內。務必仔細閱讀計畫指引。
AI 特有的阻斷服務 (低-中價值):透過對抗性輸入造成資源耗盡 (使運算量不成比例的提示詞)、模型劣化攻擊、推論管線干擾。這類通常嚴重度較低,因為影響的是可用性而非機密性或完整性,但在涵蓋可用性的計畫中仍是有效發現。
懸賞獵人的方法論
成功的 AI 漏洞懸賞需要系統化做法,而非隨機實驗提示詞。
徹底閱讀計畫範圍:測試前先理解哪些明確在範圍內、哪些被排除、計畫將哪些內容視為有效漏洞。許多研究者把時間浪費在明確排除的發現上。對 AI 專屬範圍定義要格外留意,因為不同計畫差異很大。
先進行偵察:在發動攻擊前先理解目標系統的架構、能力與預期用途。使用什麼模型?存取哪些資料來源?可呼叫哪些工具?宣稱的限制為何?這些資訊會引導你的測試策略,協助你鎖定最高價值的攻擊向量。
聚焦影響而非新穎性:計畫獎勵的是影響,而非聰明程度。能洩漏 PII 的簡單提示詞注入,比產生輕微好笑但無害輸出的精巧多步攻擊鏈更值錢。永遠要問:「攻擊者透過這個漏洞可能造成的最壞後果是什麼?」
系統化跨攻擊面測試:不要只鎖定提示詞注入。同時測試應用層 (認證、授權、API 安全)、資料管線 (RAG 來源、檔案上傳處理)、工具整合與工作階段管理。許多高價值 AI 懸賞發現來自 AI 功能與傳統應用安全的交會處,而非純模型層級的攻擊。
嚴謹文件化:你的報告就是你的產品。成功的懸賞報告會包含清楚傳達發現的標題、逐步重現指示、證據 (截圖、HTTP 日誌、完整的提示/回應序列)、以具體範例呈現的影響評估,以及所測試的模型或系統版本。不完整的報告會導致被拒絕或降級。
撰寫有效的漏洞報告
報告品質直接影響發現是否被接受與獎金金額。
標題:具體且以影響為導向。「Product X 的知識庫中的間接提示詞注入可萃取其他使用者對話資料」清楚明確。「提示詞注入 bug」則不及格。
漏洞描述:以分流團隊能理解的方式說明漏洞。使用 AI 專用概念時要定義清楚。不是每個分流人員都有深厚的 AI 安全專業。
重現步驟:以編號的逐步指令,從乾淨狀態開始。包含確切的提示詞、API 呼叫或 UI 互動。多輪攻擊要包含完整對話序列。註明任何前置條件 (特定帳號類型、功能旗標、時序條件)。
概念驗證:展示漏洞造成具意義的影響。不要只展示能覆蓋系統指令 —— 要展示攻擊者透過覆蓋它能達成什麼。「我能讓聊天機器人忽略系統提示詞」只是機制。「我能讓聊天機器人洩漏其他使用者的支援工單內容」才是影響。
影響說明:說明誰受影響、嚴重程度、規模。能量化的地方就量化。
建議嚴重度:使用計畫的框架 (CVSS、自訂嚴重度量表等) 提出你的評估並附上理由。這能協助分流並顯示你了解計畫的標準。
建議修補措施:附上修補建議並非必需,但能展示專業並協助廠商更快修復問題,為你在計畫中累積聲譽。
經營 AI 漏洞懸賞計畫
計畫設計
考慮設立 AI 專屬懸賞計畫的組織,應處理以下設計決策。
範圍定義:明確界定哪些 AI 系統在範圍內、哪些發現類型合格、哪些明確排除。AI 計畫常見排除項目包括 model card 中已記載的已知限制、預期中的模型幻覺、主觀的內容品質議題,以及不具可證明資安影響的純越獄。範圍越清楚,收到的無效報告就越少。
獎金結構:AI 漏洞獎金應反映 AI 系統的獨特影響類別。範例獎金表:
| 嚴重度 | 影響類別 | 獎金範圍 |
|---|---|---|
| 關鍵 | 透過 AI 的資料洩漏、具實質影響的未授權動作 | $10,000 - $50,000 |
| 高 | 跨租戶資料外洩、具真實影響的重大安全繞過 | $5,000 - $15,000 |
| 中 | 系統提示詞萃取、有限資料暴露、中度安全繞過 | $1,000 - $5,000 |
| 低 | 系統組態資訊揭露、小型內容政策議題 | $200 - $1,000 |
分流流程:AI 漏洞分流需要 AI 安全專業。一般資安分流團隊可能無法理解提示詞注入、難以重現機率性發現,或不當地用傳統嚴重度框架評估 AI 專屬發現。應投資於訓練分流團隊,或使用懸賞平台提供的專業分流服務。
揭露政策:定義揭露時程 (通常自回報確認起 90 天至公開揭露)、發現的追蹤與溝通方式,以及研究者在修補後能否公開其發現。
營運挑戰
流量管理:AI 懸賞計畫常收到大量低品質報告,尤其是明確不在範圍內的提示詞注入嘗試。清楚的範圍文件、對常見超範圍類別的自動回覆,以及高效的分流工作流程是必要的。
可重現性驗證:AI 發現可能不具確定性重現。你的分流流程必須容許多次重現嘗試,並在不同條件下測試機率性發現。
模型版本管理:AI 模型更新頻繁。今天模型中存在的漏洞,下週更新後可能就消失。報告中須追蹤模型版本,獎金發放前應對當前部署版本重新驗證。
與 AI 供應商的協調揭露:若你的應用程式使用第三方 AI 服務 (OpenAI API、Claude API 等),且研究者發現漏洞實際在底層模型而非你的應用程式,需有流程與 AI 供應商協調揭露。務必在需要前就建立這些關係。
衡量計畫有效性
追蹤以下指標來評估懸賞計畫表現:
有效發現率:被提交報告中屬於有效、在範圍內發現的比例。目標:15-30%。過低代表範圍不清楚;過高則可能代表計畫未觸及足夠多的研究者。
分流時間:自提交到初步評估的平均時間。目標:少於 3 個工作天。分流太慢會使研究者卻步。
發放獎金時間:自驗證發現到付款的平均時間。目標:30 天內。快速付款能建立研究者忠誠度。
獨特漏洞類別:通報的獨立漏洞類別數量。這反映計畫所獲得的測試多元性。
研究者滿意度:定期調查研究者對計畫的體驗。研究者聲譽左右計畫品質 —— 滿意的研究者會口耳相傳,吸引更多人才。
法律與倫理考量
Safe Harbor
提供清楚的 safe harbor 條款,在研究者於界定範圍內測試時保護其免受法律行動。美國司法部 2022 年對《Computer Fraud and Abuse Act》執法政策的修訂支持善意資安研究,但你在計畫條款中的明確 safe harbor 能提供額外保護,鼓勵研究者參與。
負責任的測試
懸賞計畫與個別研究者都必須處理 AI 系統的負責任測試實務。
生產影響:懸賞計畫應明定是否允許對生產環境 AI 系統進行測試。若允許,應提供指引以限制測試速率避免服務中斷、避免影響真實使用者的行為,以及處理測試中產生有害內容的方式。
資料處理:發現資料外洩漏洞的研究者可能接觸到真實使用者資料。計畫條款應要求研究者立即回報此類發現、不得儲存或分享任何已萃取的資料,並在回報後刪除任何已萃取的資料。
內容責任:AI 紅隊演練可能涉及嘗試生成有害、冒犯或違法內容。計畫條款應明確表示,為合法資安研究、在計畫範圍內生成此類內容是被授權的,同時設下合理邊界。
稅務與付款考量
對研究者而言,懸賞收入在多數司法管轄區內均須繳稅。主要平台提供稅務文件 (美國的 1099 表),但獨立計畫可能沒有。請保留所有懸賞收入紀錄以備稅務合規。
對計畫營運方而言,預算應涵蓋獎金、平台費用 (主要平台通常為獎金的 20-25%)、分流成本,以及因驗證發現而生的修補成本。經營良好的 AI 懸賞計畫每年通常花費 200,000 至 1,000,000 美元以上,視範圍與獎金水準而定。
如何開始
給研究者
- 建立基礎技能:完成 AI 安全訓練,在刻意設計的脆弱 AI 應用上練習,理解 OWASP Top 10 for LLM Applications。
- 從成熟計畫開始:先從文件完整的計畫 (OpenAI、Google、Microsoft) 切入,它們具有清楚的範圍與獎金指引。
- 徹底閱讀計畫指引:測試前先理解哪些在範圍內。超範圍的提交不僅浪費時間,也可能導致被計畫封禁。
- 聚焦獨特研究:最有價值的懸賞發現來自新穎做法,而非套用其他人都在用的技術。
- 累積聲譽:持續提交高品質報告能在懸賞平台上累積聲譽,帶來獎金更高、競爭更少的私人計畫邀請。
給組織
- 先從漏洞揭露政策 (VDP) 開始:在提供獎金前先建立 VDP,提供回報 AI 漏洞的管道。這除了分流工作外不需任何額外成本,並能建立懸賞計畫所需的組織流程。
- 先運行私人計畫:從僅邀請制、由少量經審核研究者組成的計畫開始。在建立分流專業時可控管流量。
- 投資分流能力:訓練分流團隊熟悉 AI 漏洞類別,或與提供專業分流的平台合作。
- 迭代範圍:從較窄的範圍開始,依經驗擴充。在研究者已投入心力後縮小範圍,比擴大範圍困難得多。
參考資料
- OWASP Top 10 for LLM Applications, 2025 Edition. https://owasp.org/www-project-top-10-for-large-language-model-applications/ —— 用於在懸賞計畫中分類 AI 漏洞類型的框架。
- MITRE ATLAS (Adversarial Threat Landscape for AI Systems). https://atlas.mitre.org/ —— 與懸賞範圍定義相關的 AI 系統攻擊技術分類法。
- OpenAI Bug Bounty Program on Bugcrowd. https://bugcrowd.com/openai —— 主要 AI 實驗室懸賞計畫結構與範圍的範例。
- US Department of Justice. "Department of Justice Announces New Policy for Charging Cases Under the Computer Fraud and Abuse Act," May 2022. https://www.justice.gov/ —— 支持 CFAA 下善意資安研究的政策。