多模態安全
處理影像、音訊、影片與跨模態輸入之多模態 AI 系統的安全評估,涵蓋視覺-語言模型、語音系統、影片分析與跨模態攻擊技術。
現代 AI 系統愈加同時處理多種輸入類型。視覺-語言模型(VLM)分析影像與文字;語音轉文字系統將音訊轉為語言模型輸入;影片理解系統處理幀的時序序列;文件處理結合 OCR、版面分析與文字萃取。每個額外模態都新增一條可攜帶對抗內容的輸入通道,而模態之間的互動產生了性質上不同於純文字系統的攻擊面。
多模態處理的安全意涵深遠。以文字為本的防禦——輸入過濾器、封鎖清單、語意分類器——運作於文字之上,通常完全忽略其他模態。在影像、音訊片段或影片幀中嵌入指令的攻擊者,會繞過整個以文字為本的防禦堆疊。模型以其套用於文字的相同語言理解能力處理這些非文字輸入,卻不經過防禦性審查。防禦部署處與攻擊可起源處之間的不對稱,是多模態系統中的根本漏洞。
多模態處理如何產生漏洞
多模態系統的核心漏洞,是多個輸入通道匯聚到共享表徵空間。VLM 處理影像時會將視覺內容轉為與文字相同類型的符元表徵。這意味著嵌入於影像中的文字——無論對人類可見或是透過對抗性擾動隱藏——會被語言模型當作直接文字輸入般處理,但不經過以文字為本的輸入過濾器。
印刷體攻擊 利用此特性:直接將文字指令置於影像中。模型的 OCR 能力讀取文字,並將之納入推理。看似無害的文件、白板或螢幕擷取畫面的影像,可能含有覆寫系統提示詞的注入指令。此類攻擊執行簡單、無需技術精密度,且對當前 VLM 可靠有效。
對抗性擾動 更為精密。不把可見文字放入影像,而是以人類察覺不到、但對模型有意義的方式修改像素值。對人類審查者看起來完全正常的照片,可攜帶模型會遵循的嵌入指令。產生有效擾動需對模型的視覺編碼器(或可轉移的替身)有存取,但所產生的攻擊幾乎不可能透過人類審查偵測。
音訊攻擊 利用語音辨識管線。對抗音訊可嵌入語音轉文字系統會轉錄、但人類聽眾無法感知的指令;聲音複製可在語音認證系統中冒充已授權使用者。這類攻擊對依口述指令採取行動的語音控制 AI 代理特別令人擔憂。
影片攻擊 增加了時間維度。幀注入將對抗內容嵌入模型會處理但人類觀看者需暫停才能注意到的特定影格;時序操控利用模型抽樣與處理影片序列的方式,可能使其聚焦於攻擊者控制的幀、忽略合法內容。
跨模態攻擊鏈
最強大的多模態攻擊跨模態鏈結漏洞。同時包含文字與影像的文件,可用影像通道注入覆寫文字內容的指令;具音軌的影片可結合視覺與聽覺對抗訊號。這些跨模態攻擊更難防禦,因為它們需要對所有輸入通道同時進行協調偵測。
跨模態攻擊也利用模態間的資訊洩漏。當模型處理影像並產生關於它的文字時,文字輸出可能以繞過為直接問題設計之輸出過濾器的方式揭露影像內容資訊。此類間接資訊萃取對於處理敏感視覺內容的系統而言是日益嚴重的顧慮。
本節您將學到
- 視覺-語言模型 ——VLM 架構與對齊、影像注入技術、OCR 與印刷體攻擊、對抗影像生成、VLM 特定越獄
- 音訊與語音模型 ——語音辨識漏洞、對抗音訊生成、聲音複製風險、實務音訊攻擊技術
- 影片與時序模型 ——影片理解漏洞、時序操控、影片幀注入,以及對影片處理管線的攻擊
- 跨模態攻擊 ——基於文件的攻擊、多模態越獄、模態橋接技術、跨模態資訊洩漏、文字對影像攻擊,以及多模態防禦評估
先備知識
本節建立於數項基礎主題之上: