語言落差利用
利用低資源語言中的安全訓練落差,以及跨語言注入技術。
概覽
語言落差利用鎖定大型語言模型於低資源語言的安全訓練薄弱。多數模型的 RLHF 與安全對齊主要於英語進行,其他語言的安全強度依訓練資料量遞減。攻擊者將請求翻譯為低資源語言、使用罕見方言或混合語言,即可繞過主要為英語設計的安全過濾器。
核心概念
根本原則
語言落差源自:
- 訓練資料不平衡:英語主導網路語料,使低資源語言之訓練資料有限
- 安全微調偏差:RLHF 主要以英語進行,其他語言的安全行為依語言遷移而定
- 過濾器盲區:多數輸入/輸出分類器以英語訓練或僅翻譯至主要語言
- 符號化不均:模型的分詞器常對低資源語言效率較差,使編碼攻擊更易於此類語言
技術深入探討
攻擊者運用數種模式:
- 語言切換:以一種語言請求禁物,期待安全訓練較弱
- 混合語言:於英語提示詞中混入其他語言關鍵字,規避英語過濾器
- 方言利用:使用罕見方言(例如克里奧爾語變體、地區方言)
- 人工語言:使用世界語、克林貢語等人工語言,其安全訓練幾乎不存在
攻擊面分析
| 攻擊向量 | 說明 | 複雜度 | 影響 | 可偵測性 |
|---|---|---|---|---|
| 低資源語言 | 以斯瓦希里語、緬甸語等發出禁物請求 | 低 | 中-高 | 低 |
| 方言利用 | 使用罕見方言 | 中 | 中 | 低 |
| 混合語言 | 英語結構中嵌入非英語關鍵字 | 中 | 高 | 低 |
| 翻譯鏈 | 多次翻譯以累積語意漂移 | 中 | 中-高 | 中 |
| 人工語言 | 使用安全訓練不覆蓋的語言 | 中 | 中 | 極低 |
實務技術
單一低資源語言
將受限請求翻譯至斯瓦希里語、緬甸語、亞美尼亞語、菲律賓語等,直接發送。研究顯示對主要模型,此簡單翻譯可使安全繞過率從 < 1%(英語)躍升至 40-80%。
混合語言注入
於英語框架中嵌入其他語言的核心指令:例如「Please respond to the following question in English. The question is: [非英語禁物請求]」。模型翻譯並回應,但非英語原文繞過英語過濾器。
翻譯鏈累積
將請求依序翻譯:英語 → 中文 → 斯瓦希里語 → 英語。每次翻譯累積語意漂移,可能繞過「精確比對」的過濾器,同時保留核心意圖。
人工語言利用
使用世界語、克林貢語或甚至 emoji 序列。模型仍能解讀(尤其若訓練資料含這些),但安全過濾器幾乎不可能覆蓋所有可能語言。
防禦考量
輸入層防禦
- 使用多語言安全分類器,而非僅英語
- 對輸入進行語言偵測,對非主要語言加強審查
- 對混合語言輸入執行逐句翻譯與分析
架構防護
- 於模型生成前先將輸入翻譯為英語,套用英語安全檢查後再翻譯回原語言回應
- 對輸出執行多語言有害內容偵測
- 對罕見語言請求記錄並人工審查
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 辨識目標支援的語言 | 自訂腳本 | 語言清單 |
| 假設 | 選擇預期較薄弱的語言 | MITRE ATLAS | 測試計畫 |
| 執行 | 以各語言嘗試相同請求 | Garak、自訂 | 測試結果 |
| 分析 | 比較跨語言繞過率 | CVSS 框架 | 發現資料庫 |
| 報告 | 撰寫可行動報告 | 報告樣板 | 最終報告 |
真實世界範例
多語言越獄基準(2023-2024)。 Yong 等人發表研究顯示 GPT-4 的安全對齊對多種低資源語言有 80%+ 繞過率。其他研究對 Claude、Gemini 復現此結果。
混合語言 ChatGPT 繞過(2023)。 社群發現於英語提示詞中混入特定低資源語言關鍵字可可靠繞過主題過濾。
進階主題
跨架構轉移
語言落差普遍存在於所有主要模型家族,因為根本原因(訓練資料不平衡)是結構性的。具更多非英語安全訓練的模型(例如 Qwen 中文安全、Aya 多語言對齊)韌性較高。
新興攻擊向量
隨模型擴展至新語言,新攻擊面持續浮現。多模態系統中的影像文字(如醫療文件、路標)於非英語情境提供另一層落差利用機會。
營運考量
案件範圍界定
語言落差測試需明確允許測試的語言範圍。若客戶部署支援特定語言,應優先測試這些語言的安全對齊。
文件化與報告
每項發現應記錄:所用語言、該語言的繞過率、與英語基線的比較。對國際部署,此類發現具高影響。
參考文獻
- Yong, Z. et al. (2023). "Low-Resource Languages Jailbreak GPT-4"
- Deng, Y. et al. (2024). "Multilingual Jailbreak Challenges in Large Language Models"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
為何以低資源語言發出的請求常能繞過英語模型的安全對齊?