視覺-語言模型
視覺-語言模型(VLM)的安全評估——涵蓋 VLM 架構、圖片注入技術、OCR 與字型攻擊、對抗性圖片生成與 VLM 特定越獄。
視覺-語言模型(VLM)將視覺處理與語言理解結合。GPT-4V、Claude 的視覺能力、Gemini 與開源 VLM 如 LLaVA 都能處理圖片輸入。每個圖片輸入都是潛在注入通道——模型「看到」的文字可繞過純文字防禦。
VLM 架構與安全
VLM 通常包含視覺編碼器(如 ViT)將圖片轉換為向量表示、投影層將視覺表示對齊至語言模型的嵌入空間,以及語言模型處理結合的視覺與文字符元。
安全意涵:圖片中的文字被 OCR 處理並進入語言模型上下文。但圖片內容不經過大多數文字輸入過濾器——建立防禦落差。
攻擊技術
字型攻擊(最簡單)
在圖片中放置明確文字指令。模型的 OCR 讀取文字並遵循指令。對當前 VLM 可靠有效。
隱藏文字注入
以低對比(近乎不可見)文字嵌入指令。人類審查者看不見但 VLM 讀取。白色背景上的 254,254,254 色文字。
對抗性擾動
以梯度最佳化修改像素值,改變模型對圖片的詮釋而不改變視覺外觀。需要對視覺編碼器的存取(或可轉移替代)。
VLM 越獄
結合視覺與文字通道的越獄:圖片設定脈絡而文字發出請求,利用跨模態互動繞過安全訓練。
偵測與緩解
圖片 OCR 掃描:在圖片進入 VLM 前萃取並過濾文字。視覺內容過濾器:對圖片應用獨立安全分類。跨模態一致性:驗證圖片內容與文字查詢的一致性。對抗性偵測:偵測圖片中的統計異常(對抗性擾動的指紋)。