模型類型與其攻擊面
文字、視覺、多模態、embedding 與程式碼生成模型如何各呈現紅隊員獨特之漏洞與攻擊面。
為何模型類型重要
自安全觀點,非所有 AI 模型皆平等。僅文字聊天機器人、視覺分類器、程式碼生成工具與 embedding 模型皆使用神經網路,但其輸入、輸出與失敗模式顯著差異。理解模型類型告訴你哪些攻擊可能、哪些可能成功、哪些不相關。
文字生成模型
文字生成模型(GPT-4、Claude、Llama、Mistral)接受文字輸入並產出文字輸出。它們為 AI 紅隊最常見目標。
攻擊面
| 向量 | 描述 | 技術 |
|---|---|---|
| 提示注入 | 於使用者輸入或檢索內容中之對抗指令 | 直接注入、間接注入、指令階層利用 |
| 越獄 | 覆寫安全訓練以產出受限內容 | 角色扮演、編碼技巧、多樣本、漸強攻擊 |
| 系統提示提取 | 使模型揭露其系統指令 | 指令混淆、角色反轉、元提示 |
| 訓練資料提取 | 提示模型以重現記憶之訓練資料 | 逐字引出、完成基提取 |
| 輸出操弄 | 引導模型輸出朝特定內容 | 前綴注入、logit 操弄(若 API 暴露 logprobs) |
獨特特徵
文字模型於網際網路規模之文字資料上訓練,此意味它們已記憶大量資訊 —— 含潛在敏感、版權與個人資料。其自然語言介面使其對無技術專業之攻擊者可存取,而其通用目的本質意味護欄必須涵蓋巨大範圍之潛在有害輸出。
視覺模型
視覺模型處理影像為輸入。此含影像分類器(ResNet、ViT)、物件偵測器(YOLO)與生成影像文字描述之影像理解模型。
攻擊面
| 向量 | 描述 | 技術 |
|---|---|---|
| 對抗擾動 | 造成誤分類之不可感知像素變化 | FGSM、PGD、C&W 攻擊 |
| 對抗補丁 | 可見但看似無害之觸發特定行為之影像補丁 | 物理世界貼紙、QR 碼樣對抗補丁 |
| 印刷式攻擊 | 嵌入影響模型行為之影像中之文字 | 於視覺語言模型處理為指令之影像加入文字 |
| 隱寫術 payload | 模型偵測但人類不偵測之影像中之隱藏資料 | 於影像 metadata 或像素模式嵌入對抗內容 |
| 資料投毒 | 破壞訓練影像以嵌入後門 | 當存在時造成特定分類之觸發補丁 |
獨特特徵
視覺模型於連續輸入空間(像素值)而非離散(token)運作,此啟用於文字模型中無直接類比之梯度基對抗擾動攻擊。視覺攻擊之物理世界適用性亦不同 —— 於停止標誌或醫療影像之對抗補丁可具安全關鍵後果。
多模態模型
多模態模型(GPT-4V、Gemini、Claude 配視覺)接受多輸入類型 —— 文字與影像,或文字、影像與音訊。它們代表能力與攻擊面兩者之前線。
攻擊面
多模態模型繼承其支援之每模態之攻擊面,加上全新跨模態攻擊向量:
| 向量 | 描述 | 技術 |
|---|---|---|
| 跨模態注入 | 於一模態(如影像)之對抗指令影響另一模態(如文字)之處理 | 影像中覆寫系統提示之文字 |
| 模態不匹配 | 利用模型如何處理不同模態之差異 | 使用影像以傳達於文字中將被阻擋之內容 |
| 模態混淆 | 造成模型誤詮釋模態間之關係 | 將無害文字與對抗影像配對 |
| OCR 利用 | 利用模型讀取影像中文字之能力 | 於螢幕截圖、文件或照片中嵌入提示注入 |
| 音訊注入 | 模型處理但人類無法聽到之音訊中之隱藏命令 | 超音波或遮蔽音訊命令 |
獨特特徵
跨模態攻擊面為多模態模型之定義安全挑戰。每模態具其自己之前處理管線,而模態合併之融合層為高價值目標。利用不同模態如何被過濾間缺口之攻擊特別有效因護欄系統常於模態間具不一致涵蓋。
Embedding 模型
Embedding 模型(text-embedding-3、voyage-3、BGE)將文字(或其他資料)轉換為密集數值向量。它們不生成文字 —— 它們產出用於搜尋、分類與 RAG 之固定維度向量。
攻擊面
| 向量 | 描述 | 技術 |
|---|---|---|
| Embedding 碰撞 | 打造產出與目標文字類似 embedding 之對抗文字 | 梯度基最佳化、遺傳演算法 |
| 檢索投毒 | 注入將為特定查詢檢索之文件 | 為向量資料庫之 SEO 樣技術 |
| 成員推論 | 決定特定文字是否於訓練資料中 | embedding 距離之統計分析 |
| Embedding 反轉 | 自 embedding 恢復原始文字 | 將向量映射回文字之已訓練反轉模型 |
| 叢集操弄 | 破壞 embedding 空間之組織 | 插入扭曲叢集邊界之對抗文件 |
獨特特徵
Embedding 模型為 RAG 系統之基礎。若攻擊者可操弄被檢索者,其可影響生成模型之輸出而從未直接攻擊之。Embedding 攻擊為間接但高度有效因其利用生成模型置於檢索內容之信任。
程式碼生成模型
程式碼生成模型(Codex、CodeLlama、StarCoder、Copilot)被訓練以產出可執行程式碼。此造就與文字生成根本不同之風險檔案。
攻擊面
| 向量 | 描述 | 技術 |
|---|---|---|
| 惡意程式碼生成 | 誘騙模型產出具漏洞或後門之程式碼 | 針對程式碼註解、規格操弄之提示注入 |
| 依賴混淆 | 生成之程式碼引用惡意套件 | 訓練資料含對攻擊者控制套件之引用 |
| 經脈絡之程式碼注入 | 經儲存庫脈絡或 RAG 注入惡意程式碼 | 投毒模型自之檢索之程式碼儲存庫 |
| 執行環境逃逸 | 逃逸其沙箱之生成程式碼 | 生成程式碼中之 shell 命令、檔案系統存取、網路呼叫 |
| 供應鏈攻擊 | 受損模型之訓練資料以嵌入持久程式碼漏洞 | 投毒用於訓練資料之開放原始碼儲存庫 |
獨特特徵
程式碼生成模型之關鍵差異為其輸出常被執行。有害文字輸出令人擔憂;執行之有害程式碼為活躍利用。程式碼生成模型亦面對套件幻覺之獨特挑戰 —— 為不存在之套件生成匯入陳述,攻擊者可註冊並以惡意軟體填充。
專門與領域特定模型
數類別之專門模型呈現獨特攻擊面:
語音與音訊模型
如 Whisper(語音至文字)與文字至語音系統之模型面對對抗音訊攻擊、說話者偽造與音訊串流中之隱藏命令注入。
影像生成模型
如 DALL-E、Stable Diffusion 與 Midjourney 之模型可被操弄以生成有害影像、經混淆提示繞過內容過濾器或重現版權材料。攻擊聚焦於提示混淆與分類器逃避。
推薦模型
推薦內容、產品或動作之模型可經互動投毒(策略點擊或評級)、偏好注入與過濾器泡泡利用被操弄。
分類模型
用於內容審核、垃圾郵件偵測或安全過濾之二元或多類別分類器為逃避攻擊之目標。技術含對抗擾動、邊界利用與訓練資料操弄。
按模型類型選擇你之攻擊策略
| 模型類型 | 主要攻擊策略 | 關鍵風險 |
|---|---|---|
| 文字生成 | 提示注入、越獄 | 有害內容、資料洩漏 |
| 視覺 | 對抗擾動、印刷式攻擊 | 誤分類、安全繞過 |
| 多模態 | 跨模態注入、模態不匹配 | 最廣攻擊面、過濾器缺口 |
| Embedding | 檢索投毒、embedding 碰撞 | 對下游模型之間接影響 |
| 程式碼生成 | 惡意程式碼生成、執行逃逸 | 程式碼執行、供應鏈受損 |
相關主題
- AI 地景 —— 這些模型運作之較廣生態系
- 部署模式 —— 部署如何影響模型類型特定風險
- 對抗 ML:核心概念 —— 對抗攻擊之理論基礎
- LLM 如何運作 —— 文字生成模型內部之深入探討
參考資料
- "Adversarial Examples in the Physical World" - Kurakin et al.(2017)- 展示傳遞至物理世界視覺系統之對抗擾動之開創性工作
- "Visual Adversarial Examples Jailbreak Aligned Large Language Models" - Qi et al.(2023)- 對多模態語言模型之跨模態攻擊研究
- "Poisoning Language Models During Instruction Tuning" - Wan et al.(2023)- 於微調語言模型嵌入後門之技術
- "Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions" - Pearce et al.(2022)- AI 生成程式碼中安全漏洞之系統化評估
為何多模態模型被視為具最廣之攻擊面?