模型類型與其攻擊面

Beginner3 min readUpdated 2026-03-15

文字、視覺、多模態、embedding 與程式碼生成模型如何各呈現紅隊員獨特之漏洞與攻擊面。

model-types attack-surface multimodal code-generation beginner

為何模型類型重要

自安全觀點，非所有 AI 模型皆平等。僅文字聊天機器人、視覺分類器、程式碼生成工具與 embedding 模型皆使用神經網路，但其輸入、輸出與失敗模式顯著差異。理解模型類型告訴你哪些攻擊可能、哪些可能成功、哪些不相關。

文字生成模型

文字生成模型（GPT-4、Claude、Llama、Mistral）接受文字輸入並產出文字輸出。它們為 AI 紅隊最常見目標。

攻擊面

向量	描述	技術
提示注入	於使用者輸入或檢索內容中之對抗指令	直接注入、間接注入、指令階層利用
越獄	覆寫安全訓練以產出受限內容	角色扮演、編碼技巧、多樣本、漸強攻擊
系統提示提取	使模型揭露其系統指令	指令混淆、角色反轉、元提示
訓練資料提取	提示模型以重現記憶之訓練資料	逐字引出、完成基提取
輸出操弄	引導模型輸出朝特定內容	前綴注入、logit 操弄（若 API 暴露 logprobs）

獨特特徵

文字模型於網際網路規模之文字資料上訓練，此意味它們已記憶大量資訊 —— 含潛在敏感、版權與個人資料。其自然語言介面使其對無技術專業之攻擊者可存取，而其通用目的本質意味護欄必須涵蓋巨大範圍之潛在有害輸出。

視覺模型

視覺模型處理影像為輸入。此含影像分類器（ResNet、ViT）、物件偵測器（YOLO）與生成影像文字描述之影像理解模型。

攻擊面

向量	描述	技術
對抗擾動	造成誤分類之不可感知像素變化	FGSM、PGD、C&W 攻擊
對抗補丁	可見但看似無害之觸發特定行為之影像補丁	物理世界貼紙、QR 碼樣對抗補丁
印刷式攻擊	嵌入影響模型行為之影像中之文字	於視覺語言模型處理為指令之影像加入文字
隱寫術 payload	模型偵測但人類不偵測之影像中之隱藏資料	於影像 metadata 或像素模式嵌入對抗內容
資料投毒	破壞訓練影像以嵌入後門	當存在時造成特定分類之觸發補丁

向量	描述	技術
跨模態注入	於一模態（如影像）之對抗指令影響另一模態（如文字）之處理	影像中覆寫系統提示之文字
模態不匹配	利用模型如何處理不同模態之差異	使用影像以傳達於文字中將被阻擋之內容
模態混淆	造成模型誤詮釋模態間之關係	將無害文字與對抗影像配對
OCR 利用	利用模型讀取影像中文字之能力	於螢幕截圖、文件或照片中嵌入提示注入
音訊注入	模型處理但人類無法聽到之音訊中之隱藏命令	超音波或遮蔽音訊命令

向量	描述	技術
Embedding 碰撞	打造產出與目標文字類似 embedding 之對抗文字	梯度基最佳化、遺傳演算法
檢索投毒	注入將為特定查詢檢索之文件	為向量資料庫之 SEO 樣技術
成員推論	決定特定文字是否於訓練資料中	embedding 距離之統計分析
Embedding 反轉	自 embedding 恢復原始文字	將向量映射回文字之已訓練反轉模型
叢集操弄	破壞 embedding 空間之組織	插入扭曲叢集邊界之對抗文件

向量	描述	技術
惡意程式碼生成	誘騙模型產出具漏洞或後門之程式碼	針對程式碼註解、規格操弄之提示注入
依賴混淆	生成之程式碼引用惡意套件	訓練資料含對攻擊者控制套件之引用
經脈絡之程式碼注入	經儲存庫脈絡或 RAG 注入惡意程式碼	投毒模型自之檢索之程式碼儲存庫
執行環境逃逸	逃逸其沙箱之生成程式碼	生成程式碼中之 shell 命令、檔案系統存取、網路呼叫
供應鏈攻擊	受損模型之訓練資料以嵌入持久程式碼漏洞	投毒用於訓練資料之開放原始碼儲存庫

模型類型	主要攻擊策略	關鍵風險
文字生成	提示注入、越獄	有害內容、資料洩漏
視覺	對抗擾動、印刷式攻擊	誤分類、安全繞過
多模態	跨模態注入、模態不匹配	最廣攻擊面、過濾器缺口
Embedding	檢索投毒、embedding 碰撞	對下游模型之間接影響
程式碼生成	惡意程式碼生成、執行逃逸	程式碼執行、供應鏈受損

參考資料

"Adversarial Examples in the Physical World" - Kurakin et al.（2017）- 展示傳遞至物理世界視覺系統之對抗擾動之開創性工作
"Visual Adversarial Examples Jailbreak Aligned Large Language Models" - Qi et al.（2023）- 對多模態語言模型之跨模態攻擊研究
"Poisoning Language Models During Instruction Tuning" - Wan et al.（2023）- 於微調語言模型嵌入後門之技術
"Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions" - Pearce et al.（2022）- AI 生成程式碼中安全漏洞之系統化評估

Knowledge Check

為何多模態模型被視為具最廣之攻擊面？

模型類型與其攻擊面

Beginner3 min readUpdated 2026-03-15

文字、視覺、多模態、embedding 與程式碼生成模型如何各呈現紅隊員獨特之漏洞與攻擊面。

model-types attack-surface multimodal code-generation beginner

向量	描述	技術
提示注入	於使用者輸入或檢索內容中之對抗指令	直接注入、間接注入、指令階層利用
越獄	覆寫安全訓練以產出受限內容	角色扮演、編碼技巧、多樣本、漸強攻擊
系統提示提取	使模型揭露其系統指令	指令混淆、角色反轉、元提示
訓練資料提取	提示模型以重現記憶之訓練資料	逐字引出、完成基提取
輸出操弄	引導模型輸出朝特定內容	前綴注入、logit 操弄（若 API 暴露 logprobs）

向量	描述	技術
對抗擾動	造成誤分類之不可感知像素變化	FGSM、PGD、C&W 攻擊
對抗補丁	可見但看似無害之觸發特定行為之影像補丁	物理世界貼紙、QR 碼樣對抗補丁
印刷式攻擊	嵌入影響模型行為之影像中之文字	於視覺語言模型處理為指令之影像加入文字
隱寫術 payload	模型偵測但人類不偵測之影像中之隱藏資料	於影像 metadata 或像素模式嵌入對抗內容
資料投毒	破壞訓練影像以嵌入後門	當存在時造成特定分類之觸發補丁

向量	描述	技術
跨模態注入	於一模態（如影像）之對抗指令影響另一模態（如文字）之處理	影像中覆寫系統提示之文字
模態不匹配	利用模型如何處理不同模態之差異	使用影像以傳達於文字中將被阻擋之內容
模態混淆	造成模型誤詮釋模態間之關係	將無害文字與對抗影像配對
OCR 利用	利用模型讀取影像中文字之能力	於螢幕截圖、文件或照片中嵌入提示注入
音訊注入	模型處理但人類無法聽到之音訊中之隱藏命令	超音波或遮蔽音訊命令

向量	描述	技術
Embedding 碰撞	打造產出與目標文字類似 embedding 之對抗文字	梯度基最佳化、遺傳演算法
檢索投毒	注入將為特定查詢檢索之文件	為向量資料庫之 SEO 樣技術
成員推論	決定特定文字是否於訓練資料中	embedding 距離之統計分析
Embedding 反轉	自 embedding 恢復原始文字	將向量映射回文字之已訓練反轉模型
叢集操弄	破壞 embedding 空間之組織	插入扭曲叢集邊界之對抗文件

向量	描述	技術
惡意程式碼生成	誘騙模型產出具漏洞或後門之程式碼	針對程式碼註解、規格操弄之提示注入
依賴混淆	生成之程式碼引用惡意套件	訓練資料含對攻擊者控制套件之引用
經脈絡之程式碼注入	經儲存庫脈絡或 RAG 注入惡意程式碼	投毒模型自之檢索之程式碼儲存庫
執行環境逃逸	逃逸其沙箱之生成程式碼	生成程式碼中之 shell 命令、檔案系統存取、網路呼叫
供應鏈攻擊	受損模型之訓練資料以嵌入持久程式碼漏洞	投毒用於訓練資料之開放原始碼儲存庫

模型類型	主要攻擊策略	關鍵風險
文字生成	提示注入、越獄	有害內容、資料洩漏
視覺	對抗擾動、印刷式攻擊	誤分類、安全繞過
多模態	跨模態注入、模態不匹配	最廣攻擊面、過濾器缺口
Embedding	檢索投毒、embedding 碰撞	對下游模型之間接影響
程式碼生成	惡意程式碼生成、執行逃逸	程式碼執行、供應鏈受損

參考資料

"Adversarial Examples in the Physical World" - Kurakin et al.（2017）- 展示傳遞至物理世界視覺系統之對抗擾動之開創性工作
"Visual Adversarial Examples Jailbreak Aligned Large Language Models" - Qi et al.（2023）- 對多模態語言模型之跨模態攻擊研究
"Poisoning Language Models During Instruction Tuning" - Wan et al.（2023）- 於微調語言模型嵌入後門之技術
"Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions" - Pearce et al.（2022）- AI 生成程式碼中安全漏洞之系統化評估

Knowledge Check

為何多模態模型被視為具最廣之攻擊面？

模型類型與其攻擊面

Related articles

模型類型與其攻擊面

Related articles