多模態文字注入向量
透過非文字模態注入對抗性文字指令,包含嵌入文字的影像、音訊轉錄與文件解析。
概覽
多模態文字注入利用「視覺—語言」或「音訊—語言」模型把非文字內容(影像中的文字、音訊轉錄、文件 OCR)轉為文字表徵的流程。攻擊者將文字指令嵌入這些非文字模態,繞過以文字為中心的輸入過濾器。
核心概念
根本原則
多模態系統的架構:
- 影像/音訊/文件輸入
- 模態特定編碼器產生文字/向量表徵
- 語言模型處理結合的表徵並生成回應
文字安全過濾器常於步驟 1 運作(檢查使用者直接輸入的文字)。若攻擊者將指令嵌入非文字輸入,編碼器會把它們轉為文字表徵,但過濾器已錯過。
主要模式
- 影像文字注入:圖片中的可見文字(照片、截圖、簡報)
- 對抗性影像擾動:人類看不見、模型可讀的像素變化
- 音訊命令隱藏:音訊中人類聽不到但語音辨識可解碼
- 文件結構注入:於 PDF/Word metadata 或隱藏區域放置指令
- 影像中的編碼:於圖片中以 QR 碼、條碼或 ASCII 藝術編碼指令
攻擊面分析
| 攻擊向量 | 說明 | 複雜度 | 影響 | 可偵測性 |
|---|---|---|---|---|
| 可見影像文字 | 圖片中肉眼可見的文字指令 | 低 | 中-高 | 中 |
| 隱形影像文字 | 白底白字或極低對比 | 低-中 | 中-高 | 低 |
| 對抗性擾動 | 像素變化驅使 OCR 讀出指令 | 高 | 高 | 極低 |
| 音訊隱藏指令 | 超音波或背景音中的指令 | 高 | 中-高 | 低 |
| 文件 metadata | PDF 作者欄、文件註解 | 中 | 中 | 中 |
| QR/條碼編碼 | 影像中的編碼指令 | 低 | 中-高 | 中 |
實務技術
可見影像文字
最簡單:於圖片上寫指令(白紙黑字、網頁截圖、簡報投影片)。當模型被要求描述或分析影像時,OCR 讀取文字,語言模型可能遵循。
隱形影像文字
於白底加白字、極低對比度,或於圖片角落的小字。人類快速一瞥不會注意到,但現代 OCR 仍可讀取。
對抗性擾動
使用最佳化(類似 GCG)產生像素變化,使 OCR 模型看到特定文字但人類看到正常影像。研究人員已示範這是可能的。
音訊攻擊
將命令編碼於超音波頻率、背景噪音、或以不同音高混合於合法音訊。語音辨識系統解碼它們,人類聽眾聽不到。
文件注入
PDF 作者 metadata、Word 文件註解、隱藏文字層皆可能被 AI 文件處理器納入其上下文。
防禦考量
輸入層防禦
- 於影像 OCR 輸出套用文字安全分類器
- 偵測影像中看似指令的模式
- 於音訊轉錄結果套用相同安全檢查如直接文字輸入
- 拒絕具大量隱藏 metadata 的文件
架構防護
- 標記非文字來源內容為「使用者資料」而非「指令」
- 於 OCR 輸出明確標記來源以降低其指令權重
- 對多模態輸入套用更嚴格的整體檢查
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 辨識支援的模態與處理管線 | 自訂腳本 | 架構輪廓 |
| 假設 | 規劃跨模態注入模式 | MITRE ATLAS | 測試計畫 |
| 執行 | 嘗試各模態與模式 | Garak、自訂 | 測試結果 |
| 分析 | 評估跨模態成功率 | CVSS 框架 | 發現資料庫 |
| 報告 | 撰寫可行動報告 | 報告樣板 | 最終報告 |
真實世界範例
GPT-4V 影像注入(2023)。 多個研究示範嵌入可見指令的影像可繞過 GPT-4V 的安全檢查。
PDF 文件注入。 於 PDF metadata 或隱藏文字層嵌入指令可影響 AI 文件助理的回應。
進階主題
跨架構轉移
多模態注入技術跨不同 VLM(GPT-4V、Claude 3 Vision、Gemini Vision)廣泛轉移,因為基本架構相似。
新興攻擊向量
代理式多模態系統(能與 GUI 互動)帶來新向量——螢幕上的惡意文字可影響代理行為。
營運考量
案件範圍界定
範圍應明確包含的模態。影像注入需要影像準備能力;音訊攻擊需要音訊編輯工具。
文件化與報告
每項發現應記錄:所用模態、載荷嵌入方法、對應用程式的影響。對生產部署,提供重現步驟與防禦建議。
相關主題
- 編碼繞過 ——相關混淆技術
參考文獻
- MITRE ATLAS —— AI 系統的對抗威脅版圖
為何多模態系統對文字注入特別易受攻擊?