從多模態系統中萃取模型
透過視覺、音訊和跨模態查詢策略,從多模態 AI 系統中萃取模型能力、權重和架構細節的技術。
概述
模型萃取攻擊 (model extraction attacks) 旨在透過重複查詢複製目標模型的能力、架構或權重。在純文字系統中,萃取僅限於文字輸入/文字輸出互動。多模態系統暴露了額外的萃取向量:視覺編碼器的行為可透過精心選擇的圖像探測,音訊管線的特性可透過製作的音訊輸入推斷,而模態之間的互動揭露架構細節。
此攻擊類別被歸類為 MITRE ATLAS AML.T0024(模型盜竊)和 AML.T0044(模型探索)。OWASP LLM Top 10 在 LLM10(模型盜竊)下處理此議題。對於多模態系統,萃取面顯著更大,因為每種模態都提供了關於模型架構的獨立資訊通道。
多模態萃取攻擊面
MULTIMODAL_EXTRACTION_VECTORS 清單定義了六種萃取向量:
| 目標 | 輸入模態 | 所需查詢次數 | 獲得的資訊 | 偵測難度 | ATLAS 技術 |
|---|---|---|---|---|---|
| 視覺編碼器架構 | 圖像 | 100-1,000 | 視覺編碼器系列(CLIP、SigLIP、DINOv2)、解析度、塊大小 | 高 | AML.T0044 |
| 視覺編碼器權重 | 圖像 | 10,000-100,000 | 近似視覺編碼器權重,用於遷移攻擊 | 中(查詢量高) | AML.T0024 |
| 投影層 | 圖像+文字 | 1,000-10,000 | 視覺特徵如何映射到語言模型輸入空間 | 高 | AML.T0044 |
| 安全分類器 | 圖像+文字 | 500-5,000 | 安全分類器決策邊界 | 中 | AML.T0044 |
| 訓練資料成員身份 | 圖像 | 1,000-50,000 | 特定圖像是否在訓練集中 | 高 | AML.T0025 |
| 能力邊界 | 全部 | 200-2,000 | 支援的模態、解析度限制、持續時間限制 | 低(看起來像正常使用) | AML.T0044 |
prioritize_extraction_vectors 函式根據查詢預算和目標(遷移攻擊、模型複製或隱私稽核)排定萃取向量的優先順序。
視覺編碼器指紋識別
架構識別
不同的視覺編碼器(CLIP ViT-L/14、SigLIP、DINOv2)對特定探測圖像產生特徵性回應。VisualEncoderFingerprinter 類別使用三類診斷探測圖像:
generate_resolution_probe:生成區帶板(zone plate)圖案,包含從低到高的空間頻率,從中心向外輻射。模型對此圖像的描述揭示其有效處理解析度——它只能描述其視覺編碼器能解析的頻率內的細節。
generate_patch_size_probe:生成對齊到不同塊大小(14、16、32 像素)的網格圖案。當網格與實際塊邊界對齊時,模型描述的模式最清晰。
generate_encoder_family_probes:針對三種已知特性的探測圖像:
- 細粒度空間細節(DINOv2 在空間細節上更強;CLIP 較弱)
- 圖像中的文字(CLIP 家族的 OCR 能力更強;DINOv2 較弱)
- 色彩準確性(不同編碼器家族的色彩歸一化不同)
analyze_probe_responses 方法分析回應,為各編碼器變體評分,並回傳預測的編碼器和置信度。
能力萃取
CapabilityExtractor 類別系統性地探測每種模態的能力:
probe_image_capabilities 測試:
- 最大解析度(256 至 8192 像素的圖像)
- OCR 能力(嘗試讀取圖像中的文字)
- 多圖像支援(1 至 16 張圖像)
probe_safety_boundaries 透過上升等級的提示詞(良性→模糊→邊緣→敏感)探測安全邊界,記錄每個等級是否被拒絕,繪製出安全過濾器激活的邊界地圖。
訓練資料萃取
透過視覺通道進行成員推論
VisualMembershipInference 類別的 test_membership 方法確定特定圖像是否在模型的訓練資料中。
策略:比較模型對原始圖像與略微擾動版本的描述。若模型在訓練集中見過原始圖像,其描述對於原始圖像比對擾動版本更詳細且更有信心。訓練資料圖像產生「記憶化」的描述——具體且一致;新奇圖像產生更多變化的描述。
量化指標:
length_ratio:原始回應長度 / 擾動版本的平均長度(訓練資料圖像通常更長)perturbed_response_similarity:擾動版本回應之間的相似度(訓練資料圖像的擾動版本回應彼此更相似)membership_score = length_ratio * (1 - avg_perturbed_sim):超過 1.5 時判定為可能成員
抵禦萃取的防禦
ExtractionDefense 類別的 check_query 方法監控查詢是否存在萃取攻擊指標:
- 速率限制:超過每小時查詢上限(預設 100 次)觸發高嚴重度指標
- 探測圖像偵測(
_score_probe_likelihood):- 純色圖像(各通道標準差 < 5):可能性 0.9
- 漸層圖像(X 和 Y 方向梯度接近且較小):可能性 0.7
- 網格/週期圖案(頻域中有強峰值):可能性 0.6
- 萃取導向文字查詢:偵測包含「architecture」、「encoder」、「parameters」、「training data」、「how many layers」等關鍵字的查詢(低嚴重度)
實際萃取工作流程
在紅隊評估中進行模型萃取時:
-
能力探測:使用良性查詢確定支援的模態、解析度和限制,看起來像正常使用。
-
視覺編碼器指紋識別:使用診斷探測圖像識別視覺編碼器系列,縮小代理模型的搜索空間。
-
安全邊界繪製:系統性地探測每種模態的安全邊界,識別拒絕和允許的位置。
-
目標萃取:根據已識別的架構,萃取評估目標所需的特定能力或權重(遷移攻擊、複製或隱私稽核)。
-
驗證萃取:透過使用已識別的代理模型製作遷移攻擊來測試萃取的資訊。成功的遷移驗證了萃取。
| 萃取目標 | 所需查詢次數 | 獲得的資訊 | 實際用途 |
|---|---|---|---|
| 編碼器識別 | ~100 | 視覺編碼器系列和變體 | 為遷移攻擊選擇代理模型 |
| 解析度/塊大小 | ~50 | 處理解析度 | 優化對抗性擾動 |
| 安全邊界 | ~200 | 各模態防禦激活的位置 | 針對最弱的模態 |
| 能力地圖 | ~300 | 完整模態支援矩陣 | 識別容易萃取的模態 |
| 權重近似 | 10,000+ | 近似編碼器權重 | 高保真遷移攻擊 |
參考資料
- Tramer, F., et al. "Stealing Machine Learning Models via Prediction APIs." USENIX Security (2016).
- Carlini, N., et al. "Extracting Training Data from Large Language Models." USENIX Security (2021).
- Krishna, K., et al. "Thieves on Sesame Street! Model Extraction of BERT-based APIs." ICLR (2020).
- Carlini, N., et al. "Are aligned neural networks adversarially aligned?" arXiv preprint arXiv:2306.15447 (2023).
- MITRE ATLAS AML.T0024 (Model Theft) — https://atlas.mitre.org
- OWASP LLM Top 10 LLM10 (Model Theft) — https://owasp.org/www-project-top-10-for-large-language-model-applications/
為什麼視覺編碼器識別對計劃對抗性圖像攻擊的攻擊者很有價值?
透過多模態模型的視覺通道如何進行成員推論?