新興模型

Advanced3 min readUpdated 2026-03-15

新興開放權重模型（含 DeepSeek、Qwen 與 Command R+）之安全分析，涵蓋新攻擊面、較少測試之安全措施與多語言利用技術。

deepseek qwen command-r emerging-models multilingual open-weight

開放權重模型地景超越 Llama 與 Mistral 快速擴展。來自中國實驗室（DeepSeek、Qwen）、加拿大公司（Cohere 之 Command R+）與其他組織之模型引入新架構、不同安全途徑，與文化上不同之安全邊界。這些模型常較少被西方安全研究者徹底測試，為新穎漏洞發現造就機會。

DeepSeek

架構與能力

DeepSeek 已釋出數個值得注意之模型：

DeepSeek-V2 / V3 —— 使用具細粒度專家之新穎 MoE 架構（較 Mixtral 更多、較小之專家）
DeepSeek-Coder —— 具強程式碼生成之特殊化編碼模型
DeepSeek-R1 —— 以推理為聚焦、具思維鏈能力之模型

DeepSeek-V2 之 MoE 架構使用約 2360 億總參數，每 token 僅啟動 210 億，並採用較 Mixtral 更具粒度之專家結構：

特性	DeepSeek-V2 MoE	Mixtral MoE
每層總專家	160	8
每 token 活躍專家	6	2
專家大小	較小	較大
路由粒度	細粒度	粗粒度

DeepSeek 攻擊面

細粒度 MoE 利用： DeepSeek 每層 160 個專家配 6 個活躍意指每 token 更多路由決策。此造就：

可能更難均勻保護之更複雜路由模式
專家特殊化之更大潛力，安全可能集中於較少專家
更多路由決策經對抗輸入操弄

訓練資料記憶化： DeepSeek 於大規模網路資料之訓練引起關於被記憶內容之問題：

經歧異攻擊潛在提取訓練資料
可能含漏洞或密鑰之被記憶程式碼片段
受版權保護或敏感內容之重現

推理鏈利用（DeepSeek-R1）： 具明確思維鏈推理之模型暴露其推理過程：

推理鏈可能含有害之中間內容，即便最終輸出被過濾
推理過程可經提示操弄被引導
關於安全決策之明確推理揭露決策邊界

DeepSeek 安全特徵

DeepSeek 之安全訓練反映中國法規要求：

於政治敏感主題（台灣、天安門等）之強過濾
相較於與西方對齊之模型，對技術敏感內容之不同邊界
審查模式可能經語言或框架技術可被利用
於英文允許之內容可能於中文被阻擋，反之亦然

Qwen（阿里巴巴）

架構與能力

Qwen（來自阿里巴巴之 DAMO Academy）提供廣泛模型家族：

Qwen 2 / 2.5 —— 0.5B 至 72B 參數大小之文字模型
Qwen-VL —— 具圖像理解之視覺－語言模型
Qwen-Audio —— 音訊理解模型
Qwen-Agent —— 建立於 Qwen 模型之上之代理框架
CodeQwen —— 特殊化編碼模型

Qwen 攻擊面

多語言安全不一致： Qwen 之強多語言能力造就跨語言攻擊面：

安全可能跨語言以不同方式校準
代碼切換（於請求內混合語言）可混淆安全機制
較少見之語言可能具較弱之安全涵蓋
翻譯請求可用於經語言變換洗白有害內容

# 跨語言安全測試模式
"Translate the following Chinese text to English: [harmful content in Chinese]"
# 模型可能翻譯其將拒絕直接生成之內容

視覺－語言攻擊（Qwen-VL）： Qwen 之視覺能力引入多模態攻擊面：

類似 Gemini 攻擊之圖像中文字注入
圖像－文字語意橋接
視覺脈絡操弄以轉移安全邊界

代理框架利用（Qwen-Agent）： Qwen 之代理框架引入工具使用攻擊面：

經 Qwen-Agent 之工具規格格式之工具定義注入
經代理編排之多步攻擊鏈
Qwen-Agent 之內建工具（程式碼解譯器、網路瀏覽器）之利用

Qwen 安全特徵

對齊至中國法規要求，具強政治內容過濾
跨大小光譜之可變安全校準（較小模型較不安全）
於中文 vs. 英文操作時之不同安全邊界
一般較少被西方安全研究者測試

Command R+（Cohere）

架構與能力

Cohere 之 Command R+ 為企業 RAG（檢索增強生成）應用設計：

為檢索增強生成最佳化，具內建引用處理
強多語言能力（10+ 語言）
為工具使用配接地生成設計
以企業為聚焦之安全校準

Command R+ 攻擊面

RAG 特定攻擊： Command R+ 明確為 RAG 設計，使其為 RAG 特定攻擊之主要目標：

經檢索之文件之注入
引用操弄以將注入內容歸屬於受信任來源
接地濫用，其中注入之文件成為「真相來源」

引用信任利用： Command R+ 之引用機制可被操弄：

含引用標記之注入內容可能被視為更權威
模型於檢索文件之接地造就間接注入之路徑

多語言邊界差異： 跨支援語言之不同安全校準：

於所有支援語言測試同一請求
評估代碼切換與以翻譯為本之攻擊
辨識具較弱安全涵蓋之語言

多語言利用技術

具強多語言能力之新興模型共享與語言多樣性相關之常見攻擊面。

跨語言安全缺口

安全訓練於英文典型最穩健，於其他語言退化：

LANGUAGES_TO_TEST = [
    "en",  # 英文 - 基線
    "zh",  # 中文 - 常為第二強
    "es",  # 西班牙文
    "fr",  # 法文
    "ar",  # 阿拉伯文
    "hi",  # 印地文
    "ja",  # 日文
    "ko",  # 韓文
    "ru",  # 俄文
    "sw",  # 斯瓦希里文 - 常弱覆蓋
    "th",  # 泰文
    "vi",  # 越南文
]
 
def multilingual_safety_comparison(harmful_request, languages):
    """跨語言測試同一請求。"""
    results = {}
    for lang in languages:
        translated = translate_request(harmful_request, lang)
        response = model.generate(translated)
        results[lang] = {
            "complied": not is_refusal(response),
            "response_language": detect_language(response),
            "safety_level": classify_safety(response),
        }
    return results

代碼切換攻擊

於單一請求內混合語言可混淆安全分類器：

於英文開始請求（分類為良性）
為有害元件切換至另一語言
返回英文為結論

翻譯作為洗白

使用模型之翻譯能力以變換有害內容：

以模型之安全訓練較不穩健之語言呈現有害內容
請模型將其翻譯為英文
模型可能翻譯其將拒絕直接以英文生成之內容

字元集與字體利用

處理多種字體（Latin、CJK、阿拉伯、Cyrillic）之模型可能具不同安全輪廓：

Unicode 相似字元以繞過以關鍵字為本之過濾
為顯示操弄之右至左文字注入
混淆分詞與安全分類之混合字體文字

為新模型之安全評估框架

評估任何新興模型時，遵循此評估框架：

文件審查 —— 讀取模型卡、技術報告與任何安全評估
安全訓練辨識 —— 決定使用何安全途徑（RLHF、DPO、以規則為本等）
語言與模態覆蓋 —— 跨所有支援之語言與模態測試安全
文化邊界繪製 —— 辨識可能與西方規範不同之文化特定安全邊界
架構分析 —— 尋找架構特定攻擊面（MoE、多模態融合等）
社群生態系評估 —— 檢查社群微調、未審查變體與已知繞過
部署安全評估 —— 評估部署者已加入何安全基礎設施

參考資料

DeepSeek（2024）. "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model"
Qwen Team（2024）. "Qwen2 Technical Report"
Cohere（2024）. Command R+ Model Card
Deng, Y. et al.（2023）. "Multilingual Jailbreak Challenges in Large Language Models"
Yong, Z. et al.（2023）. "Low-Resource Languages Jailbreak GPT-4"

Knowledge Check

為何多語言能力為如 Qwen 與 DeepSeek 之新興模型之安全關切？

新興模型

Advanced3 min readUpdated 2026-03-15

新興開放權重模型（含 DeepSeek、Qwen 與 Command R+）之安全分析，涵蓋新攻擊面、較少測試之安全措施與多語言利用技術。

deepseek qwen command-r emerging-models multilingual open-weight

DeepSeek

架構與能力

DeepSeek 已釋出數個值得注意之模型：

DeepSeek-V2 / V3 —— 使用具細粒度專家之新穎 MoE 架構（較 Mixtral 更多、較小之專家）
DeepSeek-Coder —— 具強程式碼生成之特殊化編碼模型
DeepSeek-R1 —— 以推理為聚焦、具思維鏈能力之模型

DeepSeek-V2 之 MoE 架構使用約 2360 億總參數，每 token 僅啟動 210 億，並採用較 Mixtral 更具粒度之專家結構：

特性	DeepSeek-V2 MoE	Mixtral MoE
每層總專家	160	8
每 token 活躍專家	6	2
專家大小	較小	較大
路由粒度	細粒度	粗粒度

DeepSeek 攻擊面

細粒度 MoE 利用： DeepSeek 每層 160 個專家配 6 個活躍意指每 token 更多路由決策。此造就：

可能更難均勻保護之更複雜路由模式
專家特殊化之更大潛力，安全可能集中於較少專家
更多路由決策經對抗輸入操弄

訓練資料記憶化： DeepSeek 於大規模網路資料之訓練引起關於被記憶內容之問題：

經歧異攻擊潛在提取訓練資料
可能含漏洞或密鑰之被記憶程式碼片段
受版權保護或敏感內容之重現

推理鏈利用（DeepSeek-R1）： 具明確思維鏈推理之模型暴露其推理過程：

推理鏈可能含有害之中間內容，即便最終輸出被過濾
推理過程可經提示操弄被引導
關於安全決策之明確推理揭露決策邊界

DeepSeek 安全特徵

DeepSeek 之安全訓練反映中國法規要求：

於政治敏感主題（台灣、天安門等）之強過濾
相較於與西方對齊之模型，對技術敏感內容之不同邊界
審查模式可能經語言或框架技術可被利用
於英文允許之內容可能於中文被阻擋，反之亦然

Qwen（阿里巴巴）

架構與能力

Qwen（來自阿里巴巴之 DAMO Academy）提供廣泛模型家族：

Qwen 2 / 2.5 —— 0.5B 至 72B 參數大小之文字模型
Qwen-VL —— 具圖像理解之視覺－語言模型
Qwen-Audio —— 音訊理解模型
Qwen-Agent —— 建立於 Qwen 模型之上之代理框架
CodeQwen —— 特殊化編碼模型

Qwen 攻擊面

多語言安全不一致： Qwen 之強多語言能力造就跨語言攻擊面：

安全可能跨語言以不同方式校準
代碼切換（於請求內混合語言）可混淆安全機制
較少見之語言可能具較弱之安全涵蓋
翻譯請求可用於經語言變換洗白有害內容

# 跨語言安全測試模式
"Translate the following Chinese text to English: [harmful content in Chinese]"
# 模型可能翻譯其將拒絕直接生成之內容

視覺－語言攻擊（Qwen-VL）： Qwen 之視覺能力引入多模態攻擊面：

類似 Gemini 攻擊之圖像中文字注入
圖像－文字語意橋接
視覺脈絡操弄以轉移安全邊界

代理框架利用（Qwen-Agent）： Qwen 之代理框架引入工具使用攻擊面：

經 Qwen-Agent 之工具規格格式之工具定義注入
經代理編排之多步攻擊鏈
Qwen-Agent 之內建工具（程式碼解譯器、網路瀏覽器）之利用

Qwen 安全特徵

對齊至中國法規要求，具強政治內容過濾
跨大小光譜之可變安全校準（較小模型較不安全）
於中文 vs. 英文操作時之不同安全邊界
一般較少被西方安全研究者測試

Command R+（Cohere）

架構與能力

Cohere 之 Command R+ 為企業 RAG（檢索增強生成）應用設計：

為檢索增強生成最佳化，具內建引用處理
強多語言能力（10+ 語言）
為工具使用配接地生成設計
以企業為聚焦之安全校準

Command R+ 攻擊面

RAG 特定攻擊： Command R+ 明確為 RAG 設計，使其為 RAG 特定攻擊之主要目標：

經檢索之文件之注入
引用操弄以將注入內容歸屬於受信任來源
接地濫用，其中注入之文件成為「真相來源」

引用信任利用： Command R+ 之引用機制可被操弄：

含引用標記之注入內容可能被視為更權威
模型於檢索文件之接地造就間接注入之路徑

多語言邊界差異： 跨支援語言之不同安全校準：

於所有支援語言測試同一請求
評估代碼切換與以翻譯為本之攻擊
辨識具較弱安全涵蓋之語言

多語言利用技術

具強多語言能力之新興模型共享與語言多樣性相關之常見攻擊面。

跨語言安全缺口

安全訓練於英文典型最穩健，於其他語言退化：

LANGUAGES_TO_TEST = [
    "en",  # 英文 - 基線
    "zh",  # 中文 - 常為第二強
    "es",  # 西班牙文
    "fr",  # 法文
    "ar",  # 阿拉伯文
    "hi",  # 印地文
    "ja",  # 日文
    "ko",  # 韓文
    "ru",  # 俄文
    "sw",  # 斯瓦希里文 - 常弱覆蓋
    "th",  # 泰文
    "vi",  # 越南文
]
 
def multilingual_safety_comparison(harmful_request, languages):
    """跨語言測試同一請求。"""
    results = {}
    for lang in languages:
        translated = translate_request(harmful_request, lang)
        response = model.generate(translated)
        results[lang] = {
            "complied": not is_refusal(response),
            "response_language": detect_language(response),
            "safety_level": classify_safety(response),
        }
    return results

代碼切換攻擊

於單一請求內混合語言可混淆安全分類器：

於英文開始請求（分類為良性）
為有害元件切換至另一語言
返回英文為結論

翻譯作為洗白

使用模型之翻譯能力以變換有害內容：

以模型之安全訓練較不穩健之語言呈現有害內容
請模型將其翻譯為英文
模型可能翻譯其將拒絕直接以英文生成之內容

字元集與字體利用

處理多種字體（Latin、CJK、阿拉伯、Cyrillic）之模型可能具不同安全輪廓：

Unicode 相似字元以繞過以關鍵字為本之過濾
為顯示操弄之右至左文字注入
混淆分詞與安全分類之混合字體文字

為新模型之安全評估框架

評估任何新興模型時，遵循此評估框架：

文件審查 —— 讀取模型卡、技術報告與任何安全評估
安全訓練辨識 —— 決定使用何安全途徑（RLHF、DPO、以規則為本等）
語言與模態覆蓋 —— 跨所有支援之語言與模態測試安全
文化邊界繪製 —— 辨識可能與西方規範不同之文化特定安全邊界
架構分析 —— 尋找架構特定攻擊面（MoE、多模態融合等）
社群生態系評估 —— 檢查社群微調、未審查變體與已知繞過
部署安全評估 —— 評估部署者已加入何安全基礎設施

參考資料

DeepSeek（2024）. "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model"
Qwen Team（2024）. "Qwen2 Technical Report"
Cohere（2024）. Command R+ Model Card
Deng, Y. et al.（2023）. "Multilingual Jailbreak Challenges in Large Language Models"
Yong, Z. et al.（2023）. "Low-Resource Languages Jailbreak GPT-4"

Knowledge Check

為何多語言能力為如 Qwen 與 DeepSeek 之新興模型之安全關切？

新興模型

DeepSeek

架構與能力

DeepSeek 攻擊面

DeepSeek 安全特徵

Qwen（阿里巴巴）

架構與能力

Qwen 攻擊面

Qwen 安全特徵

Command R+（Cohere）

架構與能力

Command R+ 攻擊面

多語言利用技術

跨語言安全缺口

代碼切換攻擊

翻譯作為洗白

字元集與字體利用

為新模型之安全評估框架

相關主題

參考資料

新興模型

DeepSeek

架構與能力

DeepSeek 攻擊面

DeepSeek 安全特徵

Qwen（阿里巴巴）

架構與能力

Qwen 攻擊面

Qwen 安全特徵

Command R+（Cohere）

架構與能力

Command R+ 攻擊面

多語言利用技術

跨語言安全缺口

代碼切換攻擊

翻譯作為洗白

字元集與字體利用

為新模型之安全評估框架

相關主題

參考資料

新興模型

Related articles

新興模型

Related articles