多模態文字注入向量

進階2 分鐘閱讀更新於 2026-03-16

透過非文字模態注入對抗性文字指令，包含嵌入文字的影像、音訊轉錄與文件解析。

prompt-injection multimodal vision audio ocr

概覽

多模態文字注入利用「視覺—語言」或「音訊—語言」模型把非文字內容（影像中的文字、音訊轉錄、文件 OCR）轉為文字表徵的流程。攻擊者將文字指令嵌入這些非文字模態，繞過以文字為中心的輸入過濾器。

核心概念

根本原則

多模態系統的架構：

影像/音訊/文件輸入
模態特定編碼器產生文字/向量表徵
語言模型處理結合的表徵並生成回應

文字安全過濾器常於步驟 1 運作（檢查使用者直接輸入的文字）。若攻擊者將指令嵌入非文字輸入，編碼器會把它們轉為文字表徵，但過濾器已錯過。

主要模式

影像文字注入：圖片中的可見文字（照片、截圖、簡報）
對抗性影像擾動：人類看不見、模型可讀的像素變化
音訊命令隱藏：音訊中人類聽不到但語音辨識可解碼
文件結構注入：於 PDF/Word metadata 或隱藏區域放置指令
影像中的編碼：於圖片中以 QR 碼、條碼或 ASCII 藝術編碼指令

攻擊面分析

攻擊向量	說明	複雜度	影響	可偵測性
可見影像文字	圖片中肉眼可見的文字指令	低	中-高	中
隱形影像文字	白底白字或極低對比	低-中	中-高	低
對抗性擾動	像素變化驅使 OCR 讀出指令	高	高	極低
音訊隱藏指令	超音波或背景音中的指令	高	中-高	低
文件 metadata	PDF 作者欄、文件註解	中	中	中
QR/條碼編碼	影像中的編碼指令	低	中-高	中

實務技術

可見影像文字

最簡單：於圖片上寫指令（白紙黑字、網頁截圖、簡報投影片）。當模型被要求描述或分析影像時，OCR 讀取文字，語言模型可能遵循。

隱形影像文字

於白底加白字、極低對比度，或於圖片角落的小字。人類快速一瞥不會注意到，但現代 OCR 仍可讀取。

對抗性擾動

使用最佳化（類似 GCG）產生像素變化，使 OCR 模型看到特定文字但人類看到正常影像。研究人員已示範這是可能的。

音訊攻擊

將命令編碼於超音波頻率、背景噪音、或以不同音高混合於合法音訊。語音辨識系統解碼它們，人類聽眾聽不到。

文件注入

PDF 作者 metadata、Word 文件註解、隱藏文字層皆可能被 AI 文件處理器納入其上下文。

防禦考量

輸入層防禦

於影像 OCR 輸出套用文字安全分類器
偵測影像中看似指令的模式
於音訊轉錄結果套用相同安全檢查如直接文字輸入
拒絕具大量隱藏 metadata 的文件

架構防護

標記非文字來源內容為「使用者資料」而非「指令」
於 OCR 輸出明確標記來源以降低其指令權重
對多模態輸入套用更嚴格的整體檢查

測試方法論

階段	活動	工具	交付物
偵察	辨識支援的模態與處理管線	自訂腳本	架構輪廓
假設	規劃跨模態注入模式	MITRE ATLAS	測試計畫
執行	嘗試各模態與模式	Garak、自訂	測試結果
分析	評估跨模態成功率	CVSS 框架	發現資料庫
報告	撰寫可行動報告	報告樣板	最終報告

真實世界範例

GPT-4V 影像注入（2023）。 多個研究示範嵌入可見指令的影像可繞過 GPT-4V 的安全檢查。

PDF 文件注入。 於 PDF metadata 或隱藏文字層嵌入指令可影響 AI 文件助理的回應。

進階主題

跨架構轉移

多模態注入技術跨不同 VLM（GPT-4V、Claude 3 Vision、Gemini Vision）廣泛轉移，因為基本架構相似。

新興攻擊向量

代理式多模態系統（能與 GUI 互動）帶來新向量——螢幕上的惡意文字可影響代理行為。

營運考量

案件範圍界定

範圍應明確包含的模態。影像注入需要影像準備能力；音訊攻擊需要音訊編輯工具。

文件化與報告

每項發現應記錄：所用模態、載荷嵌入方法、對應用程式的影響。對生產部署，提供重現步驟與防禦建議。

參考文獻

MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何多模態系統對文字注入特別易受攻擊？