What is 影片模型攻擊?

影片理解模型的安全性、影格層級攻擊與時序攻擊的差異、影片模型如何處理序列資訊，以及完整的攻擊面概觀。

What is 視覺-語言模型?

視覺-語言模型（VLM）的安全評估——涵蓋 VLM 架構、圖片注入技術、OCR 與字型攻擊、對抗性圖片生成與 VLM 特定越獄。

What is 跨模態攻擊?

跨多個輸入模態串接漏洞的攻擊——涵蓋基於文件的攻擊、多模態越獄、模態橋接與資訊洩漏。

What is 音訊模型攻擊面?

音訊模型安全概覽，包括對 Whisper、語音轉文字系統、語音助理以及音訊處理管線的攻擊。

What is 影像注入技術?

在影像中嵌入隱形或半隱形指令,使視覺語言模型誤將其視為合法提示詞。

What is 針對 VLM 的對抗性影像擾動?

產生對抗性擾動,使視覺語言模型誤判或遵循被注入的指令。

What is 音訊注入攻擊?

透過音訊管道注入惡意指令或對抗性內容,操弄多模態 AI 模型行為。

What is 文件解析利用?

利用文件解析器的弱點與邊緣案例,在 AI 處理前後偷渡惡意內容。

What is 影片影格注入?

將對抗性影格插入影片串流,以操弄處理影片內容的 AI 系統。

What is OCR 對抗性攻擊?

透過精心設計的影像使 OCR 系統擷取出對抗性文字,以進行後續的注入攻擊。

多模態安全

入門1 分鐘閱讀更新於 2026-03-15

多模態 AI 系統 (處理影像、音訊、影片與跨模態輸入) 的安全評估,涵蓋視覺語言模型、語音系統、影片分析與跨模態攻擊技術。

multimodal vision audio video cross-modal vlm adversarial

現代 AI 系統愈來愈常同時處理多種輸入類型。視覺語言模型 (VLM) 會將影像與文字一起分析;語音轉文字系統會將音訊轉為語言模型的輸入;影片理解系統處理時序的影格序列;文件處理則結合 OCR、版面分析與文字擷取。每一種額外的模態都增添一個可承載對抗性內容的輸入通道,而模態之間的互動所創造出的攻擊面,在本質上也與純文字系統截然不同。

多模態處理的安全影響相當深遠。以文字為基礎的防禦——輸入過濾器、封鎖清單、語意分類器——只處理文字,對其他模態通常完全忽視。攻擊者只要將指令嵌入影像、音訊片段或影片影格中,就能繞過整套以文字為重點的防禦堆疊。模型會以處理文字時相同的語言理解能力處理這些非文字輸入,卻不必面對同樣的防禦檢視。這種防禦部署位置與攻擊起源位置之間的不對稱,正是多模態系統的根本漏洞。

多模態處理如何造成漏洞

多模態系統的核心漏洞,在於多個輸入通道匯聚到共享的表徵空間。當 VLM 處理影像時,會將視覺內容轉換為與文字產生相同類型的符元表徵。這意味著嵌入影像中的文字——無論是人眼可見,或透過對抗性擾動隱藏——都會被語言模型當作直接的文字輸入處理,但不會經過以文字為重點的輸入過濾器。

排版攻擊利用這點,將文字指令直接放置於影像中。模型的 OCR 能力會讀取這些文字並納入其推理過程。看似無害的文件、白板或螢幕截圖影像,可能暗藏能覆寫系統提示詞的注入指令。這類攻擊執行極為容易,不需要任何技術門檻,並能對目前的 VLM 穩定奏效。

對抗性擾動則更為精密。這類攻擊不是將可見文字放入影像,而是以人眼察覺不到、但對模型具有意義的方式修改像素值。對人類審查者看似完全正常的照片,可能攜帶模型會遵循的嵌入指令。產生有效擾動需要存取模型的視覺編碼器 (或可轉移的替身模型),但產生的攻擊幾乎無法透過人類審查偵測。

音訊攻擊則利用語音辨識管線。對抗性音訊可能嵌入語音轉文字系統會轉寫、但人類聽眾無法感知的命令。語音複製可以在使用語音認證的系統中冒充授權使用者。對於根據語音命令採取動作的語音控制 AI 代理而言,這些攻擊尤其令人擔憂。

影片攻擊則加入了時序維度。影格注入將對抗性內容嵌入模型會處理、但人類觀看者需暫停才能察覺的特定影格。時序操弄則利用模型取樣與處理影片序列的方式,可能讓模型聚焦於攻擊者控制的影格,而忽視合法內容。

跨模態攻擊鏈

最強大的多模態攻擊會跨模態串連漏洞。同時包含文字與影像的文件,可以透過影像通道注入指令以覆寫文字內容。含有音軌的影片,則可結合視覺與聽覺的對抗性訊號。這些跨模態攻擊更難防禦,因為需要跨所有輸入通道同時進行協調式偵測。

跨模態攻擊也利用模態之間的資訊外洩。當模型處理影像並針對其生成文字時,輸出的文字可能以繞過為直接問題設計之輸出過濾器的方式,洩漏影像內容的資訊。這種間接資訊萃取對於處理敏感視覺內容的系統而言,是日益受關注的議題。

本節學習內容

視覺語言模型——VLM 架構與對齊、影像注入技術、OCR 與排版攻擊、對抗性影像生成,以及 VLM 特有的越獄
音訊與語音模型——語音辨識漏洞、對抗性音訊生成、語音複製風險,以及實務上的音訊攻擊技術
影片與時序模型——影片理解漏洞、時序操弄、影片影格注入,以及針對影片處理管線的攻擊
跨模態攻擊——以文件為基礎的攻擊、多模態越獄、模態橋接技術、跨模態資訊外洩、文字生成影像的攻擊,以及多模態防禦評估

先備知識

本節建立在以下幾個基礎主題之上:

提示詞注入基礎 — 來自提示詞注入章節;多模態攻擊將注入延伸至非文字通道
嵌入知識 — 來自嵌入與向量系統;理解視覺與文字嵌入如何共享表徵空間
基本影像處理 — 熟悉影像格式、像素操作與基本電腦視覺概念
Python 工具 — NumPy、PIL/Pillow 以及用於產生對抗樣本的基本 ML 程式庫

多模態安全

入門1 分鐘閱讀更新於 2026-03-15

多模態 AI 系統 (處理影像、音訊、影片與跨模態輸入) 的安全評估,涵蓋視覺語言模型、語音系統、影片分析與跨模態攻擊技術。

multimodal vision audio video cross-modal vlm adversarial

視覺語言模型——VLM 架構與對齊、影像注入技術、OCR 與排版攻擊、對抗性影像生成,以及 VLM 特有的越獄
音訊與語音模型——語音辨識漏洞、對抗性音訊生成、語音複製風險,以及實務上的音訊攻擊技術
影片與時序模型——影片理解漏洞、時序操弄、影片影格注入,以及針對影片處理管線的攻擊
跨模態攻擊——以文件為基礎的攻擊、多模態越獄、模態橋接技術、跨模態資訊外洩、文字生成影像的攻擊,以及多模態防禦評估

先備知識

本節建立在以下幾個基礎主題之上:

提示詞注入基礎 — 來自提示詞注入章節;多模態攻擊將注入延伸至非文字通道
嵌入知識 — 來自嵌入與向量系統;理解視覺與文字嵌入如何共享表徵空間
基本影像處理 — 熟悉影像格式、像素操作與基本電腦視覺概念
Python 工具 — NumPy、PIL/Pillow 以及用於產生對抗樣本的基本 ML 程式庫

多模態安全

多模態處理如何造成漏洞

跨模態攻擊鏈

本節學習內容

先備知識

學習路徑

多模態安全

多模態處理如何造成漏洞

跨模態攻擊鏈

本節學習內容

先備知識

學習路徑

多模態安全

學習路徑

相關文章

多模態安全

學習路徑

相關文章