音訊模型攻擊面
音訊模型安全概覽,包括對 Whisper、語音轉文字系統、語音助理以及音訊處理管線的攻擊。
遭受攻擊的音訊 AI 系統
具音訊能力的 AI 系統被部署於消費裝置、企業工具與關鍵基礎設施。語音助理每日處理數十億條命令。語音轉文字系統處理敏感對話。音訊理解模型分類並回應環境聲音。每一個都代表一個攻擊面。
音訊處理管線
多數音訊 AI 系統遵循共同管線:
┌──────────┐ ┌──────────────┐ ┌─────────────┐ ┌──────────┐
│ 音訊 │ │ 特徵 │ │ 模型 │ │ 輸出 │
│ 擷取 │───▶│ 萃取 │───▶│ 推論 │───▶│ 動作 │
│ (麥克風) │ │ (MFCC/mel) │ │ (ASR/NLU) │ │ │
└──────────┘ └──────────────┘ └─────────────┘ └──────────┘
│ │ │ │
實體 訊號處理 模型層級 語意
攻擊 攻擊 攻擊 攻擊
第 1 層:音訊擷取
麥克風與類比數位轉換器引入第一個攻擊面。超出人類聽覺(約 20kHz)的超音波頻率可被麥克風擷取,並可能被模型詮釋。
第 2 層:特徵萃取
音訊訊號被轉換為頻譜特徵——通常是 MFCC 或 梅爾頻譜圖。此轉換具有損且不可逆,這同時限制與啟用某些攻擊。
第 3 層:模型推論
核心模型(Whisper、wav2vec2 或端對端系統)處理特徵以產生轉錄、分類或嵌入。這是對抗性擾動攻擊所操作之處。
第 4 層:輸出與動作
模型的輸出餵入下游系統——執行命令的虛擬助理、轉錄服務,或處理語音轉文字輸入的 LLM。此層的攻擊利用所說內容與系統理解內容之間的語意鴻溝。
攻擊分類
| 類別 | 目標 | 範例 | 威脅等級 |
|---|---|---|---|
| 對抗性音訊 | ASR 模型 | 被轉錄為注入文字的擾動 | 高 |
| 隱藏的語音命令 | 語音助理 | 超音波或混淆的命令 | 高 |
| 語音複製 | 說話者驗證 | 繞過認證的合成語音 | 嚴重 |
| 音訊提示詞注入 | 透過語音轉文字到 LLM | 音訊輸入中被注入的指示 | 高 |
| 拒絕服務 | 任何音訊模型 | 造成當機或無限迴圈的雜訊模式 | 中 |
| 透過模型竊聽 | 模型側通道 | 從模型行為萃取資訊 | 中 |
關鍵音訊 AI 系統
Whisper (OpenAI)
Whisper 是主導性的開源 ASR 模型。其架構(在梅爾頻譜圖上的編碼器—解碼器 transformer)廣為人知,並對對抗性漏洞進行廣泛研究。
import whisper
# 標準 Whisper 管線
model = whisper.load_model("base")
result = model.transcribe("audio.wav")
print(result["text"])
# 攻擊面:若 audio.wav 包含對抗性擾動
# 使 'result["text"]' 包含被注入的指示?語音助理(Siri、Alexa、Google Assistant)
語音助理結合 ASR 與自然語言理解(NLU)以及動作執行。從語音到動作的管線意味著成功的音訊攻擊可觸發現實世界動作——進行購買、開鎖或傳送訊息。
具音訊能力的 LLM
GPT-4o 與 Gemini 等模型可直接處理音訊輸入,繞過傳統 ASR 管線。這建立新的攻擊向量,對抗性音訊可直接影響語言模型的推理。
音訊與視覺攻擊:關鍵差異
| 維度 | 音訊攻擊 | 視覺攻擊 |
|---|---|---|
| 傳遞 | 可透過空氣(實體) | 通常需要數位存取 |
| 持久性 | 短暫(聲音消失) | 持續(影像保留) |
| 不可感知性 | 較難——人類對音訊異常敏感 | 較易——微小像素變化不可見 |
| 頻寬 | 較低(一維訊號、有限頻率範圍) | 較高(二維、三通道、數百萬像素) |
| 環境因素 | 受雜訊、距離、混響影響 | 受光線、解析度、壓縮影響 |
| 現實世界部署 | 較易(只需播放音訊) | 較難(需控制視覺輸入) |
現實世界攻擊情境
情境 1:會議轉錄投毒
攻擊者加入視訊通話,並透過其麥克風播放聽不見的對抗性音訊。會議轉錄 AI 產生包含從未說過之注入文字的記錄。
情境 2:語音助理劫持
YouTube 影片或廣告包含隱藏的語音命令。當在語音助理附近的裝置上播放時,會在使用者不知情下觸發動作。
情境 3:語音認證繞過
攻擊者使用複製的語音對銀行系統的語音驗證進行認證,取得另一使用者帳號的存取權。
情境 4:音訊到 LLM 的提示詞注入
在語音輸入被轉錄並餵給 LLM 的系統中,攻擊者製作轉錄為提示詞注入載荷的音訊,劫持 LLM 的行為。
章節路線圖
| 頁面 | 重點 |
|---|---|
| 語音辨識攻擊 | 攻擊 ASR 系統與隱藏的語音命令 |
| 對抗性音訊範例 | 為音訊模型製作對抗性擾動 |
| 語音複製與深偽音訊 | 用於認證繞過的語音複製 |
| 實驗:音訊對抗性範例 | 動手製作對抗性音訊 |
相關主題
參考資料
- "Carlini & Wagner: Audio Adversarial Examples" - Carlini & Wagner (2018) - 針對語音辨識的針對性對抗音訊攻擊奠基工作
- "DolphinAttack: Inaudible Voice Commands" - Zhang et al. (2017) - 利用麥克風非線性的超音波語音命令注入
- "SpeechGuard: Exploring the Adversarial Robustness of Multi-modal Large Language Models" - Ghosh et al. (2024) - 現代多模態 LLM 中的音訊攻擊面分析
- "Robust Audio Adversarial Example for a Physical Attack" - Yakura & Sakuma (2019) - 透過空氣的對抗性音訊攻擊方法論
與視覺攻擊相比,音訊攻擊有何獨特特性使它們對部署的 AI 系統特別危險?