語言落差利用

中級2 分鐘閱讀更新於 2026-03-20

利用低資源語言中的安全訓練落差，以及跨語言注入技術。

prompt-injection language multilingual low-resource

概覽

語言落差利用鎖定大型語言模型於低資源語言的安全訓練薄弱。多數模型的 RLHF 與安全對齊主要於英語進行，其他語言的安全強度依訓練資料量遞減。攻擊者將請求翻譯為低資源語言、使用罕見方言或混合語言，即可繞過主要為英語設計的安全過濾器。

核心概念

根本原則

語言落差源自：

訓練資料不平衡：英語主導網路語料，使低資源語言之訓練資料有限
安全微調偏差：RLHF 主要以英語進行，其他語言的安全行為依語言遷移而定
過濾器盲區：多數輸入／輸出分類器以英語訓練或僅翻譯至主要語言
符號化不均：模型的分詞器常對低資源語言效率較差，使編碼攻擊更易於此類語言

技術深入探討

攻擊者運用數種模式：

語言切換：以一種語言請求禁物，期待安全訓練較弱
混合語言：於英語提示詞中混入其他語言關鍵字，規避英語過濾器
方言利用：使用罕見方言（例如克里奧爾語變體、地區方言）
人工語言：使用世界語、克林貢語等人工語言，其安全訓練幾乎不存在

攻擊面分析

攻擊向量	說明	複雜度	影響	可偵測性
低資源語言	以斯瓦希里語、緬甸語等發出禁物請求	低	中-高	低
方言利用	使用罕見方言	中	中	低
混合語言	英語結構中嵌入非英語關鍵字	中	高	低
翻譯鏈	多次翻譯以累積語意漂移	中	中-高	中
人工語言	使用安全訓練不覆蓋的語言	中	中	極低

實務技術

單一低資源語言

將受限請求翻譯至斯瓦希里語、緬甸語、亞美尼亞語、菲律賓語等，直接發送。研究顯示對主要模型，此簡單翻譯可使安全繞過率從 < 1%（英語）躍升至 40-80%。

混合語言注入

於英語框架中嵌入其他語言的核心指令：例如「Please respond to the following question in English. The question is: [非英語禁物請求]」。模型翻譯並回應，但非英語原文繞過英語過濾器。

翻譯鏈累積

將請求依序翻譯：英語 → 中文 → 斯瓦希里語 → 英語。每次翻譯累積語意漂移，可能繞過「精確比對」的過濾器，同時保留核心意圖。

人工語言利用

使用世界語、克林貢語或甚至 emoji 序列。模型仍能解讀（尤其若訓練資料含這些），但安全過濾器幾乎不可能覆蓋所有可能語言。

防禦考量

輸入層防禦

使用多語言安全分類器，而非僅英語
對輸入進行語言偵測，對非主要語言加強審查
對混合語言輸入執行逐句翻譯與分析

架構防護

於模型生成前先將輸入翻譯為英語，套用英語安全檢查後再翻譯回原語言回應
對輸出執行多語言有害內容偵測
對罕見語言請求記錄並人工審查

測試方法論

階段	活動	工具	交付物
偵察	辨識目標支援的語言	自訂腳本	語言清單
假設	選擇預期較薄弱的語言	MITRE ATLAS	測試計畫
執行	以各語言嘗試相同請求	Garak、自訂	測試結果
分析	比較跨語言繞過率	CVSS 框架	發現資料庫
報告	撰寫可行動報告	報告樣板	最終報告

Yong, Z. et al. (2023). "Low-Resource Languages Jailbreak GPT-4"
Deng, Y. et al. (2024). "Multilingual Jailbreak Challenges in Large Language Models"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何以低資源語言發出的請求常能繞過英語模型的安全對齊？

語言落差利用

中級2 分鐘閱讀更新於 2026-03-20

利用低資源語言中的安全訓練落差，以及跨語言注入技術。

prompt-injection language multilingual low-resource

訓練資料不平衡：英語主導網路語料，使低資源語言之訓練資料有限
安全微調偏差：RLHF 主要以英語進行，其他語言的安全行為依語言遷移而定
過濾器盲區：多數輸入／輸出分類器以英語訓練或僅翻譯至主要語言
符號化不均：模型的分詞器常對低資源語言效率較差，使編碼攻擊更易於此類語言

技術深入探討

攻擊者運用數種模式：

語言切換：以一種語言請求禁物，期待安全訓練較弱
混合語言：於英語提示詞中混入其他語言關鍵字，規避英語過濾器
方言利用：使用罕見方言（例如克里奧爾語變體、地區方言）
人工語言：使用世界語、克林貢語等人工語言，其安全訓練幾乎不存在

攻擊面分析

攻擊向量	說明	複雜度	影響	可偵測性
低資源語言	以斯瓦希里語、緬甸語等發出禁物請求	低	中-高	低
方言利用	使用罕見方言	中	中	低
混合語言	英語結構中嵌入非英語關鍵字	中	高	低
翻譯鏈	多次翻譯以累積語意漂移	中	中-高	中
人工語言	使用安全訓練不覆蓋的語言	中	中	極低

使用多語言安全分類器，而非僅英語
對輸入進行語言偵測，對非主要語言加強審查
對混合語言輸入執行逐句翻譯與分析

架構防護

於模型生成前先將輸入翻譯為英語，套用英語安全檢查後再翻譯回原語言回應
對輸出執行多語言有害內容偵測
對罕見語言請求記錄並人工審查

測試方法論

階段	活動	工具	交付物
偵察	辨識目標支援的語言	自訂腳本	語言清單
假設	選擇預期較薄弱的語言	MITRE ATLAS	測試計畫
執行	以各語言嘗試相同請求	Garak、自訂	測試結果
分析	比較跨語言繞過率	CVSS 框架	發現資料庫
報告	撰寫可行動報告	報告樣板	最終報告

Yong, Z. et al. (2023). "Low-Resource Languages Jailbreak GPT-4"
Deng, Y. et al. (2024). "Multilingual Jailbreak Challenges in Large Language Models"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何以低資源語言發出的請求常能繞過英語模型的安全對齊？

語言落差利用

相關文章

語言落差利用

相關文章