AI 安全 Consulting Methodology
Structured consulting methodology for delivering AI security assessments, from client acquisition through engagement delivery.
概覽
人工智慧安全諮詢需要一種方法來解決傳統應用程式安全或網路滲透測試活動中不存在的挑戰。人工智慧系統是機率性的,而不是確定性的,這意味著相同的輸入可以在測試運行中產生不同的輸出。攻擊麵包括大多數諮詢框架未解決的新穎類別,例如提示詞注入、安全視線旁路和模型提取。客戶通常對人工智慧特定風險的理解有限,因此範圍界定和期望管理對於參與成功至關重要。 本文介紹了一種專為人工智慧安全評估而設計的結構化諮詢方法。它將已建立的諮詢框架(例如 PTES 和 OWASP 測試指南)中經過驗證的元素與 MITRE ATLAS 框架和 OWASP Top 10 LLM 應用程式提供的 AI 特定改編相結合。無論您是獨立顧問、安全公司的從業者,還是為業務部門提供諮詢服務的內部團隊成員,該方法都提供了一個可重複的流程來提供高價值的人工智慧安全評估。
參與前階段
客戶資格與攝取量
並非所有潛在的參與都適合。有效的資格認證可以為顧問和客戶節省時間。 了解客戶的人工智慧成熟度:客戶範圍從部署第一個由法學碩士支援的聊天機器人的組織到擁有廣泛機器學習基礎設施的複雜人工智慧公司。成熟度级别决定了哪些类型的测试是合适的、需要什么级别的客户教育以及应强调哪些参与的可交付成果。询问他们的人工智能开发生命周期、现有的安全测试实践以及之前的人工智能安全评估。 識別測試目標:具體了解要測試的內容。 「我們的人工智慧系統」並不是一個充分的目標定義。您需要了解特定的應用程式、底層模型、部署架構、最終用戶可用的輸入向量、人工智慧可以存取的任何工具整合或資料來源,以及目前採取的護欄或安全措施。在接收過程中請求架構圖和 API 文件。 評估存取要求:確定需要什麼級別的存取權限以及用戶端是否可以提供它。您會透過生產使用者介面、臨時環境、具有提升權限的 API 或直接存取模型權重和訓練資料進行測試嗎?不同的存取等級支援不同的測試方法,並影響參與持續時間和成本。 澄清監管背景:了解客戶的監管環境對於確定範圍和將調查結果置於背景中至關重要。受歐盟人工智慧法案高風險要求約束的人工智慧系統與內部生產力工具有不同的測試優先順序。金融服務人工智慧、醫療保健人工智慧和防禦人工智慧各自在不同的監管框架下運作,這些框架影響著有意義的發現的構成。
提案製定
強而有力的提案顯示了對客戶具體情況的理解,並對合作設定了明確的期望。 範圍宣告:精確定義測試的邊界。依名稱和版本指定範圍內的系統、要執行的測試類型(在適當的情況下參考 MITRE ATLAS 技術類別)、所需的存取等級以及任何明確的排除。常見的排除包括針對生產系統的拒絕服務測試、針對訓練管道的資料投毒攻擊以及對客戶員工的社會工程。 方法概述:描述您的測試方法,使客戶對您的徹底性充滿信心,而無需透露專有技術。參考產業框架(MITRE ATLAS、OWASP LLM Top 10、NIST AI RMF),以建立可信度並與公認的標準進行匹配。 可交付成果:準確指定客戶將收到的內容。人工智慧安全評估的標準可交付成果包括:
- 適合非技術領導的執行摘要
- 包含所有調查結果、證據和補救建議的詳細技術報告
- 用於追蹤修復進度的漏洞資料庫或電子表格
- 為客戶的技術和領導團隊進行報告演示
- 修復後關鍵和高嚴重性發現的驗證測試(通常被視為後續活動) 時間表和定價:根據範圍提供現實的時間表。由於人工智慧系統的機率性質(攻擊可能需要多次迭代)、需要無法完全自動化的手動創造性測試以及理解新穎的人工智慧架構所需的時間,人工智慧安全評估通常比同等的傳統評估需要更長的時間。為每個參與階段留出足夠的時間,並包括範圍演變的緊急措施。 假設和依賴關係:記錄您需要從客戶那裡獲得什麼(環境訪問、文件、聯繫點可用性)以及您的估計背後的假設。當參與現實與最初期望不同時,這可以保護雙方。
交戰規則
參與規則 (RoE) 文件是授權測試並定義其邊界的合約協議。對於人工智慧安全評估,RoE 必須解決幾個特定於人工智慧的考慮因素: 資料處理:人工智慧測試通常會產生敏感輸出,包括提取的個人資料、繞過安全過濾器內容以及有害模型行為的範例。 RoE 必須指定如何處理、儲存和最終銷毀這些資料。受監管行業的客戶可能有特定的資料處理要求。 生產影響:指定是否允許針對生產系統進行測試,如果允許,則採取哪些保護措施。人工智慧測試可能會消耗大量的運算資源(特別是大規模的自動化測試),可能會產生可由監控系統記錄和標記的內容,並且在代理式系統中,可能會觸發現實世界的操作(發送電子郵件、修改資料、執行程式碼)。 升級程序:定義何時以及如何在測試期間升級關鍵發現,而不是等待最終報告。允許提取包含 PII 的訓練資料的漏洞,或可被操縱以採取未經授權的操作的代理系統,可能需要立即通知。 機率系統的範圍邊界:傳統滲透測試具有明確的範圍邊界(這些IP範圍、這些URL)。 AI 測試邊界更加模糊,因為單一提示詞注入可能會導致系統透過工具使用存取範圍外的系統。定義如何處理範圍內系統的測試揭示了已連接但超出範圍的系統中的漏洞的情況。 內容政策:AI紅隊演練可能需要產生或引發攻擊性、有害或非法的內容。 RoE 應在規定的範圍內明確授權此測試,並指定即使出於測試目的也是禁止的任何內容類別。
評估執行
偵察與系統 理解
在發動攻擊之前,花足夠的時間了解目標系統。在沒有理解系統架構和預期行為的情況下倉促進行主動測試會導致浪費精力並錯過漏洞。 文件審查:研究任何可用的系統文檔,包括架構圖、API 規格、模型卡、安全文件和使用者指南。 理解系統的預期用例、已知限制和現有安全措施。 行為基準:作為一般使用者與系統交互,建立行為基準。 瞭解其回應模式、輸入處理、錯誤訊息及其預期功能的邊界。此基線對於識別測試期間的異常行為以及準確評估結果的嚴重性至關重要。 架構映射:根據現有資訊映射系統的技術架構。 識別所有輸入向量(使用者提示、檔案上傳、API參數、系統整合)、處理元件(預處理、模型推論、後處理、輸出過濾)、資料來源(檢索增強生成來源、工具整合、外部API)和輸出通道(文字回應、產生程式碼、函數呼叫、資料寫入)。 威脅模型開發:使用架構圖,開發特定於 AI 的威脅模型。 MITRE ATLAS 架構提供了技術分類。 OWASP Top 10 for LLM 申請提供了風險優先順序。將適用的技術對應到系統的攻擊面,並根據客戶的風險背景決定優先順序。
結構化測試方法
針對已識別的攻擊面系統地執行測試,而不是依賴臨時探索。 階段 1 — 這是提示級測試:通常是第一個也是最廣泛的階段。 直接提示詞注入(使用者可以覆蓋系統指令嗎?)、間接提示詞注入(在檢索到的文檔或工具輸出中註入的內容可以影響行為嗎?)、系統提示詞提取(系統的指令可以被洩露嗎?)和越獄(安全圖像可以被繞過以產生有害輸出嗎?)的測試。使用手動創意測試和使用 Garak 或 Promptfoo 等工具進行自動掃描的組合。 階段 2 — 應用程式層級測試:測試圍繞 AI 模型的應用程式層。這包括輸入驗證和清理、輸出過濾和內容審核、人工智慧功能的認證和授權、速率限制和濫用預防、會話管理和對話隔離以及錯誤處理(錯誤訊息是否會洩露系統詳細資訊?)。大部分測試都使用適合人工智慧環境的傳統 Web 應用程式安全測試技術。 階段3-工具和整合測試:對於具有工具呼叫能力的AI系統,測試工具整合的安全性。是否可以操縱AI調用帶有對抗性參數的工具?工具權限的範圍是否適當?工具輸出可以用來注入進一步的指令嗎?是否可以透過工具使用引導人工智慧存取其預期範圍之外的數據或系統?這一階段對於代理式人工智慧系統尤其重要。 階段 4 — 資料和隱私測試訓練:測試資料外洩(會員推論、訓練資料擷取)、系統配置或內部資訊的不當洩露、對話和儲存資料中的 PII 處理以及透過對話或使用工具洩露資料。 階段 5 — 穩健性與濫用測驗:測驗系統對抗性使用的復原力。它可以用來大規模產生有害內容嗎?它可以用於社會工程援助嗎?在持續的對抗性互動下,它是否能保持一致的行為?這個階段通常會揭示只有透過擴展互動序列才會出現的漏洞。
管理機率結果
人工智慧系統為安全測試帶來了獨特的挑戰:結果不確定。相同的提示可能會在運行中產生不同的響應。這對方法論有幾個影響: 統計嚴謹性:報告漏洞時,記錄多次嘗試的成功率。 80% 的時間有效的提示詞注入與 5% 的時間有效的提示詞注入是不同的結果。進行足夠的試驗(對於關鍵結果通常重複 10-20 次)以建立可靠的成功率。 溫度和配置敏感度:當模型的配置參數已知或可觀察時,請注意它們。溫度設定、top-p 採樣參數和系統提示詞變化都會影響漏洞的可利用性。盡可能記錄這些。 版本敏感度:AI模型頻繁更新,可能會改變特定攻擊的有效性。已測試的文檔模型版本並注意結果可能不會在模型更新後持續存在。 這不是降低嚴重性的理由——目前部署版本中存在的漏洞是真實存在的,無論未來的更新是否可以緩解它。 再現性文件:提供完整的再現步驟,包括準確的提示、對話情境和系統狀態。對於需要特定對話歷史記錄才能觸發的發現,請記錄完整的對話序列,而不僅僅是最終的觸發提示。
報告和交付
尋找嚴重性分類
針對特定於 AI 的發現調整標準漏洞嚴重性框架。有用的嚴重性模型考慮三個因素: 可利用性:漏洞被發現和利用的容易程度如何?它是否需要專門的知識或工具,或者任何用戶都可以透過簡單的提示觸發它?多次嘗試的成功率是多少? 影響:成功利用的後果是什麼?人工智慧系統的影響類別包括資料暴露(提取訓練資料、PII或系統配置)、安全繞過(產生有害、非法或違反政策的內容)、完整性受損(操縱使用者依賴的人工智慧決策或輸出)、可用性下降(資源耗盡或拒絕服務)和權限升級(取得超出預期授權的工具功能或資料)。 業務背景:漏洞如何對應到客戶的特定風險狀況?兒童教育平檯面向客戶的聊天機器人中的安全繞過與內部代碼審查助手中的相同繞過的嚴重程度不同。
報告結構
建立報告以服務客戶組織內的多個受眾: 執行摘要(1-2 頁):結果的非技術概述、整體風險評估和首要補救優先事項。專為 C 級領導和董事會級報告而編寫。關注業務影響和風險,而不是技術細節。 方法部分:描述測試方法、範圍、時間表以及任何限製或限制。本節為調查結果奠定了基礎,並幫助客戶了解測試過的內容和未測試過的內容。 調查結果部分:以一致的結構呈現每個調查結果:標題、嚴重性評級、漏洞描述、證據(帶註釋的屏幕截圖、提示/響應日誌)、業務影響評估、詳細的補救建議以及相關標準的引用(MITRE ATLAS 技術 ID、OWASP LLM Top 10 類別、CWE 標識符(如果適用))。 策略建議:除了個人尋找補救措施之外,還提供改善客戶人工智慧安全狀況的策略建議。這些可能包括架構變更、流程改善、監控增強或訓練建議。 附錄:包括完整的測試日誌、完整的範圍和參與規則,以及支持調查結果但會擾亂主要報告的任何補充技術細節。
客戶交付
交付階段決定了調查結果是推動行動還是積灰塵。 技術報告:讓客戶的技術團隊詳細了解調查結果,並盡可能現場示範關鍵漏洞。現場演示對於人工智慧漏洞特別有效,因為利害關係人常常難以僅從書面描述中認識到提示詞注入或安全繞過的風險。看到系統即時產生有害輸出或洩漏數據,組織就會產生優先考慮修復的緊迫性。 執行簡報:向領導層提交執行摘要,重點關注業務風險和建議的補救投資。保持本次會議的重點和簡短(最多 30 分鐘)。準備好回答有關與同業比較和監管影響的問題。 修復計畫會議:與客戶的開發團隊合作,確定修復的優先順序並建立切合實際的時間表。 針對每個發現,討論具有不同成本/效果權衡的多種補救方案。顧問在這裡的角色是提供諮詢——客戶必須有補救決定並付諸實踐。
訂婚後階段
驗證測試
在參與後 4-8 週安排驗證測試,以確認關鍵和高嚴重性問題已得到有效補救。驗證測試應該:
- 使用原始測試案例重新測試所有關鍵和高發現值
- 回歸測試(修復一個漏洞可能會引入另一個漏洞)
- 驗證補救措施是否解決了根本原因,而不僅僅是特定的測試案例
- 在簡短的後續報告中記錄驗證結果
知識捕獲
每次參與後,吸取經驗教訓以改善未來的參與: 技術有效性:哪些測試技術對於此類系統最有效?相應地更新您的方法手冊。 工具差距:您是否曾經遇到現有工具不足的情況?將這些記錄為潛在的工具開發優先事項。 客戶回饋:徵求有關參與流程、報告品質和溝通有效性的回饋。用它來為未來的客戶完善你的方法。 尋找模式:這次參與的發現是否強化或矛盾了先前參與的模式?更新您對人工智慧系統中常見漏洞模式的理解。
針對不同人工智慧系統類型的方法適應
LLM 支援的應用程式
最常見的諮詢參與類型。重點領域包括提示詞注入(直接和間接)、安全掃描旁路、對話資料外洩以及具有函數呼叫功能的系統中的工具濫用。自動掃描工具對於這一類別來說是最成熟的。
電腦視覺系統
對抗性範例生成、模型規避技術和物理世界攻擊場景。這些活動需要與 LLM 評估不同的工具(主要基於對抗性 Robustness Toolbox 或 CleverHans)和不同的專業知識。 NIST AI RMF 對對抗性穩健性的討論尤其相關。
代理式人工智慧系統
具有自主決策和工具使用能力的系統。這些是風險最高、最複雜的參與類型。重點領域包括透過工具鏈進行權限升級、目標劫持、未經授權的操作執行以及多代理互動漏洞。該類別的方法仍在快速發展。
RAG 系統
檢索增強生成系統透過檢索管道引入攻擊面。 知識庫投毒測試,透過檢索文件間接提示詞注入、多租戶 RAG 系統中租戶之間的資訊洩漏以及影響模型輸出的檢索操作。
微調與客製化模型
建立壓力模型或訓練自訂模型的組織提供了額外的測試機會,包括訓練資料擷取、後門偵測以及評估壓力對安全寬度的影響。這些參與通常需要更高的存取等級(模型權重、訓練資料存取)和更先進的技術專業知識。
業務運營
定價策略
人工智慧安全諮詢服務通常使用以下三種模型之一進行定價: 每次參與的固定價格:基於系統複雜性、範圍和估計工作量。該模型為客戶提供了成本確定性,並且最適合明確定義的範圍。單一系統評估的常見範圍為 30,000 美元到 80,000 美元,具體取決於複雜性和持續時間。 時間和材料:按小時或天計費,不超過上限。此模型適用於範圍不確定的合作或持續的諮商關係。高級人工智慧安全顧問的收費通常為每小時 300 至 500 美元。 保留模型:按月或按季度保留,為客戶提供明確的測試時間分配和優先存取權。該模型支持持續的關係和持續的測試參與。
建立客戶關係
長期的客戶關係是永續諮詢實踐的基礎。 展示發現之外的價值:幫助客戶了解他們的人工智慧風險狀況,將他們與相關行業資源和社區聯繫起來,並主動向他們發出影響其人工智慧部署的新威脅的警報。成為值得信賴的顧問,而不僅僅是測試供應商。 跟進節奏:每季與客戶聯繫一次,甚至在兩次活動之間也是如此。分享相關威脅情報,詢問可能需要評估的新人工智慧部署,並維持關係。 推薦開發:滿意的客戶是新業務的最佳來源。提供出色的工作,維持關係,推薦就會隨之而來。人工智慧安全諮詢市場仍然很小,聲譽傳播得很快。
參考文獻
- MITRE ATLAS(人工智慧系統的對抗性威脅格局)。 https://atlas.mitre.org/ — 用於建立人工智慧安全評估的技術分類法。
- OWASP 法學碩士申請前 10 名,2025 年版。 https://owasp.org/www-project-top-10-for-large-language-model-applications/ — LLM 申請安全評估的風險優先順序架構。
- NIST 人工智慧風險管理架構 (AI RMF 1.0),2023 年 1 月。 https://www.nist.gov/artificial-intelligence/ai-risk-management-framework — 人工智慧風險管理聯邦框架,在提案和報告中引用。
- 滲透測試執行標準(PTES)。 http://www.pentest-standard.org/ — 適用於人工智慧安全環境的傳統滲透測試方法框架。