從多模態系統中萃取模型

專家3 分鐘閱讀更新於 2026-03-20

透過視覺、音訊和跨模態查詢策略，從多模態 AI 系統中萃取模型能力、權重和架構細節的技術。

multimodal model-extraction intellectual-property side-channel query

概述

模型萃取攻擊 (model extraction attacks) 旨在透過重複查詢複製目標模型的能力、架構或權重。在純文字系統中，萃取僅限於文字輸入/文字輸出互動。多模態系統暴露了額外的萃取向量：視覺編碼器的行為可透過精心選擇的圖像探測，音訊管線的特性可透過製作的音訊輸入推斷，而模態之間的互動揭露架構細節。

此攻擊類別被歸類為 MITRE ATLAS AML.T0024（模型盜竊）和 AML.T0044（模型探索）。OWASP LLM Top 10 在 LLM10（模型盜竊）下處理此議題。對於多模態系統，萃取面顯著更大，因為每種模態都提供了關於模型架構的獨立資訊通道。

多模態萃取攻擊面

MULTIMODAL_EXTRACTION_VECTORS 清單定義了六種萃取向量：

目標	輸入模態	所需查詢次數	獲得的資訊	偵測難度	ATLAS 技術
視覺編碼器架構	圖像	100-1,000	視覺編碼器系列（CLIP、SigLIP、DINOv2）、解析度、塊大小	高	AML.T0044
視覺編碼器權重	圖像	10,000-100,000	近似視覺編碼器權重，用於遷移攻擊	中（查詢量高）	AML.T0024
投影層	圖像+文字	1,000-10,000	視覺特徵如何映射到語言模型輸入空間	高	AML.T0044
安全分類器	圖像+文字	500-5,000	安全分類器決策邊界	中	AML.T0044
訓練資料成員身份	圖像	1,000-50,000	特定圖像是否在訓練集中	高	AML.T0025
能力邊界	全部	200-2,000	支援的模態、解析度限制、持續時間限制	低（看起來像正常使用）	AML.T0044

prioritize_extraction_vectors 函式根據查詢預算和目標（遷移攻擊、模型複製或隱私稽核）排定萃取向量的優先順序。

視覺編碼器指紋識別

架構識別

不同的視覺編碼器（CLIP ViT-L/14、SigLIP、DINOv2）對特定探測圖像產生特徵性回應。VisualEncoderFingerprinter 類別使用三類診斷探測圖像：

generate_resolution_probe：生成區帶板（zone plate）圖案，包含從低到高的空間頻率，從中心向外輻射。模型對此圖像的描述揭示其有效處理解析度——它只能描述其視覺編碼器能解析的頻率內的細節。

generate_patch_size_probe：生成對齊到不同塊大小（14、16、32 像素）的網格圖案。當網格與實際塊邊界對齊時，模型描述的模式最清晰。

generate_encoder_family_probes：針對三種已知特性的探測圖像：

細粒度空間細節（DINOv2 在空間細節上更強；CLIP 較弱）
圖像中的文字（CLIP 家族的 OCR 能力更強；DINOv2 較弱）
色彩準確性（不同編碼器家族的色彩歸一化不同）

analyze_probe_responses 方法分析回應，為各編碼器變體評分，並回傳預測的編碼器和置信度。

能力萃取

CapabilityExtractor 類別系統性地探測每種模態的能力：

probe_image_capabilities 測試：

最大解析度（256 至 8192 像素的圖像）
OCR 能力（嘗試讀取圖像中的文字）
多圖像支援（1 至 16 張圖像）

probe_safety_boundaries 透過上升等級的提示詞（良性→模糊→邊緣→敏感）探測安全邊界，記錄每個等級是否被拒絕，繪製出安全過濾器激活的邊界地圖。

訓練資料萃取

透過視覺通道進行成員推論

VisualMembershipInference 類別的 test_membership 方法確定特定圖像是否在模型的訓練資料中。

策略：比較模型對原始圖像與略微擾動版本的描述。若模型在訓練集中見過原始圖像，其描述對於原始圖像比對擾動版本更詳細且更有信心。訓練資料圖像產生「記憶化」的描述——具體且一致；新奇圖像產生更多變化的描述。

量化指標：

length_ratio：原始回應長度 / 擾動版本的平均長度（訓練資料圖像通常更長）
perturbed_response_similarity：擾動版本回應之間的相似度（訓練資料圖像的擾動版本回應彼此更相似）
membership_score = length_ratio * (1 - avg_perturbed_sim)：超過 1.5 時判定為可能成員

抵禦萃取的防禦

ExtractionDefense 類別的 check_query 方法監控查詢是否存在萃取攻擊指標：

速率限制：超過每小時查詢上限（預設 100 次）觸發高嚴重度指標
探測圖像偵測（_score_probe_likelihood）：
- 純色圖像（各通道標準差 < 5）：可能性 0.9
- 漸層圖像（X 和 Y 方向梯度接近且較小）：可能性 0.7
- 網格/週期圖案（頻域中有強峰值）：可能性 0.6
萃取導向文字查詢：偵測包含「architecture」、「encoder」、「parameters」、「training data」、「how many layers」等關鍵字的查詢（低嚴重度）

實際萃取工作流程

在紅隊評估中進行模型萃取時：

能力探測：使用良性查詢確定支援的模態、解析度和限制，看起來像正常使用。
視覺編碼器指紋識別：使用診斷探測圖像識別視覺編碼器系列，縮小代理模型的搜索空間。
安全邊界繪製：系統性地探測每種模態的安全邊界，識別拒絕和允許的位置。
目標萃取：根據已識別的架構，萃取評估目標所需的特定能力或權重（遷移攻擊、複製或隱私稽核）。
驗證萃取：透過使用已識別的代理模型製作遷移攻擊來測試萃取的資訊。成功的遷移驗證了萃取。

萃取目標	所需查詢次數	獲得的資訊	實際用途
編碼器識別	~100	視覺編碼器系列和變體	為遷移攻擊選擇代理模型
解析度/塊大小	~50	處理解析度	優化對抗性擾動
安全邊界	~200	各模態防禦激活的位置	針對最弱的模態
能力地圖	~300	完整模態支援矩陣	識別容易萃取的模態
權重近似	10,000+	近似編碼器權重	高保真遷移攻擊

參考資料

Tramer, F., et al. "Stealing Machine Learning Models via Prediction APIs." USENIX Security (2016).
Carlini, N., et al. "Extracting Training Data from Large Language Models." USENIX Security (2021).
Krishna, K., et al. "Thieves on Sesame Street! Model Extraction of BERT-based APIs." ICLR (2020).
Carlini, N., et al. "Are aligned neural networks adversarially aligned?" arXiv preprint arXiv:2306.15447 (2023).
MITRE ATLAS AML.T0024 (Model Theft) — https://atlas.mitre.org
OWASP LLM Top 10 LLM10 (Model Theft) — https://owasp.org/www-project-top-10-for-large-language-model-applications/

Knowledge Check

為什麼視覺編碼器識別對計劃對抗性圖像攻擊的攻擊者很有價值？

Knowledge Check

透過多模態模型的視覺通道如何進行成員推論？

從多模態系統中萃取模型

專家3 分鐘閱讀更新於 2026-03-20

透過視覺、音訊和跨模態查詢策略，從多模態 AI 系統中萃取模型能力、權重和架構細節的技術。

multimodal model-extraction intellectual-property side-channel query

概述

多模態萃取攻擊面

MULTIMODAL_EXTRACTION_VECTORS 清單定義了六種萃取向量：

目標	輸入模態	所需查詢次數	獲得的資訊	偵測難度	ATLAS 技術
視覺編碼器架構	圖像	100-1,000	視覺編碼器系列（CLIP、SigLIP、DINOv2）、解析度、塊大小	高	AML.T0044
視覺編碼器權重	圖像	10,000-100,000	近似視覺編碼器權重，用於遷移攻擊	中（查詢量高）	AML.T0024
投影層	圖像+文字	1,000-10,000	視覺特徵如何映射到語言模型輸入空間	高	AML.T0044
安全分類器	圖像+文字	500-5,000	安全分類器決策邊界	中	AML.T0044
訓練資料成員身份	圖像	1,000-50,000	特定圖像是否在訓練集中	高	AML.T0025
能力邊界	全部	200-2,000	支援的模態、解析度限制、持續時間限制	低（看起來像正常使用）	AML.T0044

prioritize_extraction_vectors 函式根據查詢預算和目標（遷移攻擊、模型複製或隱私稽核）排定萃取向量的優先順序。

視覺編碼器指紋識別

架構識別

不同的視覺編碼器（CLIP ViT-L/14、SigLIP、DINOv2）對特定探測圖像產生特徵性回應。VisualEncoderFingerprinter 類別使用三類診斷探測圖像：

generate_patch_size_probe：生成對齊到不同塊大小（14、16、32 像素）的網格圖案。當網格與實際塊邊界對齊時，模型描述的模式最清晰。

generate_encoder_family_probes：針對三種已知特性的探測圖像：

細粒度空間細節（DINOv2 在空間細節上更強；CLIP 較弱）
圖像中的文字（CLIP 家族的 OCR 能力更強；DINOv2 較弱）
色彩準確性（不同編碼器家族的色彩歸一化不同）

analyze_probe_responses 方法分析回應，為各編碼器變體評分，並回傳預測的編碼器和置信度。

能力萃取

CapabilityExtractor 類別系統性地探測每種模態的能力：

probe_image_capabilities 測試：

最大解析度（256 至 8192 像素的圖像）
OCR 能力（嘗試讀取圖像中的文字）
多圖像支援（1 至 16 張圖像）

訓練資料萃取

透過視覺通道進行成員推論

VisualMembershipInference 類別的 test_membership 方法確定特定圖像是否在模型的訓練資料中。

量化指標：

length_ratio：原始回應長度 / 擾動版本的平均長度（訓練資料圖像通常更長）
perturbed_response_similarity：擾動版本回應之間的相似度（訓練資料圖像的擾動版本回應彼此更相似）
membership_score = length_ratio * (1 - avg_perturbed_sim)：超過 1.5 時判定為可能成員

抵禦萃取的防禦

ExtractionDefense 類別的 check_query 方法監控查詢是否存在萃取攻擊指標：

速率限制：超過每小時查詢上限（預設 100 次）觸發高嚴重度指標
探測圖像偵測（_score_probe_likelihood）：
- 純色圖像（各通道標準差 < 5）：可能性 0.9
- 漸層圖像（X 和 Y 方向梯度接近且較小）：可能性 0.7
- 網格/週期圖案（頻域中有強峰值）：可能性 0.6
萃取導向文字查詢：偵測包含「architecture」、「encoder」、「parameters」、「training data」、「how many layers」等關鍵字的查詢（低嚴重度）

實際萃取工作流程

在紅隊評估中進行模型萃取時：

能力探測：使用良性查詢確定支援的模態、解析度和限制，看起來像正常使用。
視覺編碼器指紋識別：使用診斷探測圖像識別視覺編碼器系列，縮小代理模型的搜索空間。
安全邊界繪製：系統性地探測每種模態的安全邊界，識別拒絕和允許的位置。
目標萃取：根據已識別的架構，萃取評估目標所需的特定能力或權重（遷移攻擊、複製或隱私稽核）。
驗證萃取：透過使用已識別的代理模型製作遷移攻擊來測試萃取的資訊。成功的遷移驗證了萃取。

萃取目標	所需查詢次數	獲得的資訊	實際用途
編碼器識別	~100	視覺編碼器系列和變體	為遷移攻擊選擇代理模型
解析度/塊大小	~50	處理解析度	優化對抗性擾動
安全邊界	~200	各模態防禦激活的位置	針對最弱的模態
能力地圖	~300	完整模態支援矩陣	識別容易萃取的模態
權重近似	10,000+	近似編碼器權重	高保真遷移攻擊

參考資料

Tramer, F., et al. "Stealing Machine Learning Models via Prediction APIs." USENIX Security (2016).
Carlini, N., et al. "Extracting Training Data from Large Language Models." USENIX Security (2021).
Krishna, K., et al. "Thieves on Sesame Street! Model Extraction of BERT-based APIs." ICLR (2020).
Carlini, N., et al. "Are aligned neural networks adversarially aligned?" arXiv preprint arXiv:2306.15447 (2023).
MITRE ATLAS AML.T0024 (Model Theft) — https://atlas.mitre.org
OWASP LLM Top 10 LLM10 (Model Theft) — https://owasp.org/www-project-top-10-for-large-language-model-applications/

Knowledge Check

為什麼視覺編碼器識別對計劃對抗性圖像攻擊的攻擊者很有價值？

Knowledge Check

透過多模態模型的視覺通道如何進行成員推論？

從多模態系統中萃取模型

相關文章

從多模態系統中萃取模型

相關文章