跨模態攻擊
跨多個輸入模態串接漏洞的攻擊——涵蓋基於文件的攻擊、多模態越獄、模態橋接與資訊洩漏。
跨模態攻擊是多模態安全中最精密的威脅——它們利用不同輸入模態互動中產生的漏洞。單一模態攻擊(純圖片注入、純文字注入)可被模態特定防禦處理。跨模態攻擊利用模態之間的互動,需要跨所有通道的協調偵測——這是大多數防禦未具備的能力。
基於文件的攻擊
文件結合多種模態:文字內容、嵌入圖片、metadata、隱藏文字層(PDF)。在任一元素嵌入注入 payload,它會被模型在處理文件時擷取。
多模態越獄
結合視覺與文字通道的越獄:圖片設定「合法」脈絡而文字發出受限請求。模型更難拒絕因為脈絡跨模態建立。
模態橋接
使用一個模態的資訊影響另一模態的處理。例如:圖片中嵌入的指令影響模型如何處理伴隨文字。
跨模態資訊洩漏
模型的文字輸出可揭露它在圖片中「看到」的敏感資訊——繞過為直接文字查詢設計的輸出過濾器。
防禦
跨模態攻擊的防禦需要多模態一致性檢查:驗證不同模態的內容是否語意一致、對每個模態獨立應用安全檢查,以及監控跨模態的資訊流以偵測洩漏。