多模態嵌入向量攻擊
利用 CLIP 等跨模態嵌入模型——對抗性圖文對齊操控、跨模態注入與對多模態檢索系統的攻擊。
跨模態嵌入模型如 CLIP(Contrastive Language-Image Pre-training)將圖片與文字對應至共享向量空間,使跨模態搜尋與比較成為可能。此共享空間是許多多模態 AI 系統的基礎——從圖片搜尋到多模態 RAG 管線。它也建立獨特攻擊面,使文字領域的攻擊可影響圖片檢索,反之亦然。
跨模態嵌入基礎
共享嵌入空間
CLIP 等模型被訓練為將語意相關的圖片與文字對應至嵌入空間中的鄰近點。「一隻在海灘上的貓」的圖片與相同描述的文字嵌入向量會在共享空間中相近。
此屬性使跨模態搜尋成為可能,但也建立攻擊向量:打造在嵌入空間中接近目標文字查詢的圖片(或反之),即使視覺/語意內容完全不同。
對齊操控
圖片至文字對齊攻擊:建立視覺上看起來良性但嵌入至接近特定文字查詢的圖片。當用於多模態 RAG 系統時,此圖片會在使用者查詢目標文字時被檢索,即使圖片內容不相關。
文字至圖片對齊攻擊:打造嵌入至接近特定圖片的文字,可用於操控基於文字的圖片搜尋結果。
攻擊技術
對抗性擾動
對圖片加入精心設計的像素層級修改,改變其在嵌入空間中的位置而不顯著改變其視覺外觀。使用梯度式最佳化將圖片嵌入移向目標嵌入。
跨模態投毒
在多模態 RAG 系統中:上傳嵌入至接近目標查詢之圖片至知識庫。當使用者發出文字查詢時,被投毒圖片被檢索為「相關」內容。圖片可包含視覺提示詞注入 payload,當被視覺-語言模型處理時執行。
語意碰撞
打造在嵌入空間中碰撞的輸入——不同模態的不同內容但嵌入至幾乎相同的向量。這可用於繞過基於嵌入的過濾器或在檢索系統中建立混淆。
防禦
- 嵌入空間監控:偵測聚集在嵌入空間不尋常區域的文件
- 跨模態一致性檢查:驗證檢索圖片的視覺內容是否與文字查詢語意一致
- 對抗性穩健性訓練:對嵌入模型使用對抗性範例訓練以對擾動更穩健
- 多模態過濾:對圖片與文字兩者都應用內容過濾,不只文字
多模態嵌入攻擊代表 AI 安全的前沿——利用跨模態共享空間中固有的語意落差。隨著多模態 RAG 系統增加,這些攻擊的相關性只會增長。