多模態安全
多模態 AI 系統 (處理影像、音訊、影片與跨模態輸入) 的安全評估,涵蓋視覺語言模型、語音系統、影片分析與跨模態攻擊技術。
現代 AI 系統愈來愈常同時處理多種輸入類型。視覺語言模型 (VLM) 會將影像與文字一起分析;語音轉文字系統會將音訊轉為語言模型的輸入;影片理解系統處理時序的影格序列;文件處理則結合 OCR、版面分析與文字擷取。每一種額外的模態都增添一個可承載對抗性內容的輸入通道,而模態之間的互動所創造出的攻擊面,在本質上也與純文字系統截然不同。
多模態處理的安全影響相當深遠。以文字為基礎的防禦——輸入過濾器、封鎖清單、語意分類器——只處理文字,對其他模態通常完全忽視。攻擊者只要將指令嵌入影像、音訊片段或影片影格中,就能繞過整套以文字為重點的防禦堆疊。模型會以處理文字時相同的語言理解能力處理這些非文字輸入,卻不必面對同樣的防禦檢視。這種防禦部署位置與攻擊起源位置之間的不對稱,正是多模態系統的根本漏洞。
多模態處理如何造成漏洞
多模態系統的核心漏洞,在於多個輸入通道匯聚到共享的表徵空間。當 VLM 處理影像時,會將視覺內容轉換為與文字產生相同類型的符元表徵。這意味著嵌入影像中的文字——無論是人眼可見,或透過對抗性擾動隱藏——都會被語言模型當作直接的文字輸入處理,但不會經過以文字為重點的輸入過濾器。
排版攻擊利用這點,將文字指令直接放置於影像中。模型的 OCR 能力會讀取這些文字並納入其推理過程。看似無害的文件、白板或螢幕截圖影像,可能暗藏能覆寫系統提示詞的注入指令。這類攻擊執行極為容易,不需要任何技術門檻,並能對目前的 VLM 穩定奏效。
對抗性擾動則更為精密。這類攻擊不是將可見文字放入影像,而是以人眼察覺不到、但對模型具有意義的方式修改像素值。對人類審查者看似完全正常的照片,可能攜帶模型會遵循的嵌入指令。產生有效擾動需要存取模型的視覺編碼器 (或可轉移的替身模型),但產生的攻擊幾乎無法透過人類審查偵測。
音訊攻擊則利用語音辨識管線。對抗性音訊可能嵌入語音轉文字系統會轉寫、但人類聽眾無法感知的命令。語音複製可以在使用語音認證的系統中冒充授權使用者。對於根據語音命令採取動作的語音控制 AI 代理而言,這些攻擊尤其令人擔憂。
影片攻擊則加入了時序維度。影格注入將對抗性內容嵌入模型會處理、但人類觀看者需暫停才能察覺的特定影格。時序操弄則利用模型取樣與處理影片序列的方式,可能讓模型聚焦於攻擊者控制的影格,而忽視合法內容。
跨模態攻擊鏈
最強大的多模態攻擊會跨模態串連漏洞。同時包含文字與影像的文件,可以透過影像通道注入指令以覆寫文字內容。含有音軌的影片,則可結合視覺與聽覺的對抗性訊號。這些跨模態攻擊更難防禦,因為需要跨所有輸入通道同時進行協調式偵測。
跨模態攻擊也利用模態之間的資訊外洩。當模型處理影像並針對其生成文字時,輸出的文字可能以繞過為直接問題設計之輸出過濾器的方式,洩漏影像內容的資訊。這種間接資訊萃取對於處理敏感視覺內容的系統而言,是日益受關注的議題。
本節學習內容
- 視覺語言模型——VLM 架構與對齊、影像注入技術、OCR 與排版攻擊、對抗性影像生成,以及 VLM 特有的越獄
- 音訊與語音模型——語音辨識漏洞、對抗性音訊生成、語音複製風險,以及實務上的音訊攻擊技術
- 影片與時序模型——影片理解漏洞、時序操弄、影片影格注入,以及針對影片處理管線的攻擊
- 跨模態攻擊——以文件為基礎的攻擊、多模態越獄、模態橋接技術、跨模態資訊外洩、文字生成影像的攻擊,以及多模態防禦評估
先備知識
本節建立在以下幾個基礎主題之上: