針對 AI 攻擊的影像隱寫術
使用隱寫術技術將對抗性載荷嵌入圖像中,規避人工檢查和自動化偵測,同時影響 AI 模型行為。
概述
隱寫術 (steganography)——在其他資料中隱藏資訊的實踐——在資訊安全領域有著悠久的歷史。應用於 AI 攻擊時,隱寫術技術提供了與對抗性擾動根本不同的方法:不是針對模型的梯度優化像素變化,而是以能在圖像處理中存活並規避偵測的方式嵌入對抗性指令的結構化載荷。
這種區別很重要。對抗性擾動攻擊(Carlini 等人,2023)透過基於梯度的優化直接操縱模型的視覺特徵。隱寫術攻擊則在人類審查者看不見但模型的視覺處理可提取的圖像區域嵌入可讀文字或結構化資料。兩種方法是互補的:隱寫術提供隱蔽性,對抗性擾動提供精確性。
對 AI 紅隊演練而言,隱寫術技術在以下場景中特別相關:圖像在到達模型之前要經過人工審查(有審核的上傳管線)、自動化圖像掃描器尋找可見異常,或攻擊者需要載荷在有損壓縮和調整大小中存活。
針對 AI 改編的傳統隱寫術
最低有效位元 (LSB) 編碼
LSBSteganography 類別在像素值的最低有效位中隱藏資料。改變像素的 LSB 最多使其值改變 1/256,人類視覺無法感知。對於 AI 攻擊,隱藏資料是對抗性文字,模型的視覺編碼器可能將其作為圖像中的微弱模式偵測到。
值得注意的是,標準 LSB 隱寫術不直接影響 VLM 行為,因為模型處理更高階的視覺特徵,而非個別像素 LSB。然而,當與提取後注入管線結合時(例如,提取隱藏文字的預處理步驟),LSB 編碼可以傳遞規避視覺檢查的載荷。
encode 方法的實作邏輯:
- 將載荷文字轉換為位元組,加入 4 位元組長度標頭
- 將位元組轉換為位元陣列
- 將位元嵌入像素 LSB(根據
bits_per_channel參數使用每通道 1-4 位元) - 儲存並回傳 PSNR(峰值訊雜比)等指標
decode 方法反向操作:從像素 LSB 讀取位元,重建長度標頭和載荷。
DCT 域隱寫術
DCTSteganography 類別在量化 DCT 係數中嵌入載荷,使隱藏資料能在 JPEG 壓縮中存活(JPEG 壓縮會破壞空間域中的 LSB 編碼資料)。JPEG 在 DCT 域中運作,所以直接嵌入 DCT 係數的載荷能在 JPEG 重新壓縮後存活,這對於 AI 攻擊至關重要,因為許多圖像處理管線在模型處理前會將圖像重新編碼為 JPEG。
embed_in_dct 方法支援三種係數選擇策略:
| 係數選擇 | 能否存活重新壓縮 | 能否存活調整大小 | 視覺影響 | 典型 PSNR |
|---|---|---|---|---|
low_frequency(低頻) | 是 | 是 | 中等 | 35-40 dB |
mid_frequency(中頻) | 是 | 否 | 低 | 40-45 dB |
high_frequency(高頻) | 否 | 否 | 非常低 | 45-55 dB |
AI 特定的隱寫術技術
視覺模式隱寫術
VisualPatternSteganography 類別不同於在圖像中隱藏可提取二進位資料的傳統隱寫術——它建立直接影響模型視覺編碼器的視覺模式。「隱藏」資訊不是二進位資料,而是編碼器將其解讀為有意義內容的視覺特徵。
此技術利用了人類視覺感知與視覺編碼器特徵提取之間的差距。特定空間頻率下、低於人類對比敏感度的模式,可以激活視覺編碼器中對應於文字或指令的特徵。
create_frequency_pattern 方法透過傅立葉變換建立頻域模式:
- 計算目標文字的偽編碼,作為頻率分量(
low:2-8 週期,mid:8-32,high:32+ 週期) - 每個字元透過其 ASCII 碼影響特定頻率分量的相位
- 逆 FFT 轉換回空間域後疊加到圖像上
amplitude > 0.04時對人眼可感知
create_texture_pattern 方法疊加微妙的紋理模式(noise 隨機雜訊、grid 格線、wave 正弦波),在不編碼特定文字的情況下,將模型的視覺特徵偏向特定語義區域。
穩健性測試
RobustnessTester 類別測試隱寫術載荷在各種圖像處理轉換下的存活情況,涵蓋生產管線中典型的轉換:
- JPEG 壓縮(品質 85 和 60)
- 縮放(50% 和 200%)
- 高斯雜訊(標準差 5.0)
- 高斯模糊(半徑 1.0)
test_robustness 方法對每種轉換計算存活率(完全符合)和字串相似度,並根據 JPEG 壓縮的存活結果建議使用 dct_domain 或 lsb 技術。
隱寫分析與偵測
偵測隱寫術內容
SteganalysisDetector 類別使用統計分析識別可能包含隱藏資料的圖像:
chi_square_analysis 方法(卡方分析):LSB 嵌入在像素對 (2k, 2k+1) 的分佈中建立特徵性模式。卡方檢定以高精確度偵測這些模式。計算標準化卡方統計量,stego_likelihood > 0.5 時回傳「SUSPICIOUS」。
rs_analysis 方法(正規-奇異分析):測量 LSB 翻轉前後「正規」和「奇異」像素群的比例。在自然圖像中,R > S;LSB 嵌入使 R 和 S 趨近。stego_likelihood > 0.6 時回傳「SUSPICIOUS」。
紅隊演練實際應用
| 場景 | 隱寫術技術 | 選擇隱寫術而非其他方法的原因 |
|---|---|---|
| 有審核的上傳管線 | LSB 或 DCT 文字載荷編碼 | 圖像在模型處理前要經過人工審查 |
| 圖像型 RAG 投毒 | 頻域視覺模式 | 載荷必須在索引和檢索管線中存活 |
| 文件圖像注入 | DCT 域文字嵌入 | 載荷必須在文件處理中的 JPEG 重壓縮後存活 |
| 長期持久載荷 | DCT 中頻編碼 | 載荷必須在多輪處理後存活 |
| 規避自動掃描器 | 視覺模式隱寫術 | 沒有 OCR 型偵測可尋找的類文字特徵 |
參考資料
- Carlini, N., et al. "Are aligned neural networks adversarially aligned?" arXiv preprint arXiv:2306.15447 (2023).
- Zou, A., et al. "Universal and Transferable Adversarial Attacks on Aligned Language Models." arXiv preprint arXiv:2307.15043 (2023).
- Fridrich, J. "Steganography in Digital Media: Principles, Algorithms, and Applications." Cambridge University Press (2009).
- Holub, V., Fridrich, J., and Denemark, T. "Universal Distortion Function for Steganography in an Arbitrary Domain." EURASIP Journal on Information Security (2014).
- MITRE ATLAS framework — https://atlas.mitre.org
- OWASP LLM Top 10 — https://owasp.org/www-project-top-10-for-large-language-model-applications/
為什麼在生產管線的 AI 攻擊中,DCT 域隱寫術比 LSB 隱寫術更受偏好?
傳統隱寫術與 AI 特定視覺模式隱寫術的關鍵區別是什麼?