新興模型
新興開放權重模型(含 DeepSeek、Qwen 與 Command R+)之安全分析,涵蓋新攻擊面、較少測試之安全措施與多語言利用技術。
開放權重模型地景超越 Llama 與 Mistral 快速擴展。來自中國實驗室(DeepSeek、Qwen)、加拿大公司(Cohere 之 Command R+)與其他組織之模型引入新架構、不同安全途徑,與文化上不同之安全邊界。這些模型常較少被西方安全研究者徹底測試,為新穎漏洞發現造就機會。
DeepSeek
架構與能力
DeepSeek 已釋出數個值得注意之模型:
- DeepSeek-V2 / V3 —— 使用具細粒度專家之新穎 MoE 架構(較 Mixtral 更多、較小之專家)
- DeepSeek-Coder —— 具強程式碼生成之特殊化編碼模型
- DeepSeek-R1 —— 以推理為聚焦、具思維鏈能力之模型
DeepSeek-V2 之 MoE 架構使用約 2360 億總參數,每 token 僅啟動 210 億,並採用較 Mixtral 更具粒度之專家結構:
| 特性 | DeepSeek-V2 MoE | Mixtral MoE |
|---|---|---|
| 每層總專家 | 160 | 8 |
| 每 token 活躍專家 | 6 | 2 |
| 專家大小 | 較小 | 較大 |
| 路由粒度 | 細粒度 | 粗粒度 |
DeepSeek 攻擊面
細粒度 MoE 利用: DeepSeek 每層 160 個專家配 6 個活躍意指每 token 更多路由決策。此造就:
- 可能更難均勻保護之更複雜路由模式
- 專家特殊化之更大潛力,安全可能集中於較少專家
- 更多路由決策經對抗輸入操弄
訓練資料記憶化: DeepSeek 於大規模網路資料之訓練引起關於被記憶內容之問題:
- 經歧異攻擊潛在提取訓練資料
- 可能含漏洞或密鑰之被記憶程式碼片段
- 受版權保護或敏感內容之重現
推理鏈利用(DeepSeek-R1): 具明確思維鏈推理之模型暴露其推理過程:
- 推理鏈可能含有害之中間內容,即便最終輸出被過濾
- 推理過程可經提示操弄被引導
- 關於安全決策之明確推理揭露決策邊界
DeepSeek 安全特徵
DeepSeek 之安全訓練反映中國法規要求:
- 於政治敏感主題(台灣、天安門等)之強過濾
- 相較於與西方對齊之模型,對技術敏感內容之不同邊界
- 審查模式可能經語言或框架技術可被利用
- 於英文允許之內容可能於中文被阻擋,反之亦然
Qwen(阿里巴巴)
架構與能力
Qwen(來自阿里巴巴之 DAMO Academy)提供廣泛模型家族:
- Qwen 2 / 2.5 —— 0.5B 至 72B 參數大小之文字模型
- Qwen-VL —— 具圖像理解之視覺-語言模型
- Qwen-Audio —— 音訊理解模型
- Qwen-Agent —— 建立於 Qwen 模型之上之代理框架
- CodeQwen —— 特殊化編碼模型
Qwen 攻擊面
多語言安全不一致: Qwen 之強多語言能力造就跨語言攻擊面:
- 安全可能跨語言以不同方式校準
- 代碼切換(於請求內混合語言)可混淆安全機制
- 較少見之語言可能具較弱之安全涵蓋
- 翻譯請求可用於經語言變換洗白有害內容
# 跨語言安全測試模式
"Translate the following Chinese text to English: [harmful content in Chinese]"
# 模型可能翻譯其將拒絕直接生成之內容
視覺-語言攻擊(Qwen-VL): Qwen 之視覺能力引入多模態攻擊面:
- 類似 Gemini 攻擊 之圖像中文字注入
- 圖像-文字語意橋接
- 視覺脈絡操弄以轉移安全邊界
代理框架利用(Qwen-Agent): Qwen 之代理框架引入工具使用攻擊面:
- 經 Qwen-Agent 之工具規格格式之工具定義注入
- 經代理編排之多步攻擊鏈
- Qwen-Agent 之內建工具(程式碼解譯器、網路瀏覽器)之利用
Qwen 安全特徵
- 對齊至中國法規要求,具強政治內容過濾
- 跨大小光譜之可變安全校準(較小模型較不安全)
- 於中文 vs. 英文操作時之不同安全邊界
- 一般較少被西方安全研究者測試
Command R+(Cohere)
架構與能力
Cohere 之 Command R+ 為企業 RAG(檢索增強生成)應用設計:
- 為檢索增強生成最佳化,具內建引用處理
- 強多語言能力(10+ 語言)
- 為工具使用配接地生成設計
- 以企業為聚焦之安全校準
Command R+ 攻擊面
RAG 特定攻擊: Command R+ 明確為 RAG 設計,使其為 RAG 特定攻擊 之主要目標:
- 經檢索之文件之注入
- 引用操弄以將注入內容歸屬於受信任來源
- 接地濫用,其中注入之文件成為「真相來源」
引用信任利用: Command R+ 之引用機制可被操弄:
- 含引用標記之注入內容可能被視為更權威
- 模型於檢索文件之接地造就間接注入之路徑
多語言邊界差異: 跨支援語言之不同安全校準:
- 於所有支援語言測試同一請求
- 評估代碼切換與以翻譯為本之攻擊
- 辨識具較弱安全涵蓋之語言
多語言利用技術
具強多語言能力之新興模型共享與語言多樣性相關之常見攻擊面。
跨語言安全缺口
安全訓練於英文典型最穩健,於其他語言退化:
LANGUAGES_TO_TEST = [
"en", # 英文 - 基線
"zh", # 中文 - 常為第二強
"es", # 西班牙文
"fr", # 法文
"ar", # 阿拉伯文
"hi", # 印地文
"ja", # 日文
"ko", # 韓文
"ru", # 俄文
"sw", # 斯瓦希里文 - 常弱覆蓋
"th", # 泰文
"vi", # 越南文
]
def multilingual_safety_comparison(harmful_request, languages):
"""跨語言測試同一請求。"""
results = {}
for lang in languages:
translated = translate_request(harmful_request, lang)
response = model.generate(translated)
results[lang] = {
"complied": not is_refusal(response),
"response_language": detect_language(response),
"safety_level": classify_safety(response),
}
return results代碼切換攻擊
於單一請求內混合語言可混淆安全分類器:
於英文開始請求(分類為良性)
為有害元件切換至另一語言
返回英文為結論
翻譯作為洗白
使用模型之翻譯能力以變換有害內容:
- 以模型之安全訓練較不穩健之語言呈現有害內容
- 請模型將其翻譯為英文
- 模型可能翻譯其將拒絕直接以英文生成之內容
字元集與字體利用
處理多種字體(Latin、CJK、阿拉伯、Cyrillic)之模型可能具不同安全輪廓:
- Unicode 相似字元以繞過以關鍵字為本之過濾
- 為顯示操弄之右至左文字注入
- 混淆分詞與安全分類之混合字體文字
為新模型之安全評估框架
評估任何新興模型時,遵循此評估框架:
- 文件審查 —— 讀取模型卡、技術報告與任何安全評估
- 安全訓練辨識 —— 決定使用何安全途徑(RLHF、DPO、以規則為本等)
- 語言與模態覆蓋 —— 跨所有支援之語言與模態測試安全
- 文化邊界繪製 —— 辨識可能與西方規範不同之文化特定安全邊界
- 架構分析 —— 尋找架構特定攻擊面(MoE、多模態融合等)
- 社群生態系評估 —— 檢查社群微調、未審查變體與已知繞過
- 部署安全評估 —— 評估部署者已加入何安全基礎設施
相關主題
- 開放權重模型安全 —— 一般開放權重威脅模型
- Llama 家族攻擊 —— 與已確立開放權重模型之比較
- Mistral 與 Mixtral —— MoE 架構比較
- RAG、資料與訓練攻擊 —— 與 Command R+ 相關之 RAG 特定攻擊
- 跨模型比較 —— 新興模型如何適於更廣地景
參考資料
- DeepSeek(2024). "DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model"
- Qwen Team(2024). "Qwen2 Technical Report"
- Cohere(2024). Command R+ Model Card
- Deng, Y. et al.(2023). "Multilingual Jailbreak Challenges in Large Language Models"
- Yong, Z. et al.(2023). "Low-Resource Languages Jailbreak GPT-4"
為何多語言能力為如 Qwen 與 DeepSeek 之新興模型之安全關切?