開源權重模型安全
開源權重模型(包括 Llama、Mistral、Qwen 與 DeepSeek)之安全分析,涵蓋自完整權重存取、微調攻擊,與部署安全挑戰之獨特風險。
開源權重模型代表與封閉原始碼模型(如 GPT-4、Claude、Gemini)從根本上不同之安全典範。當模型權重公開可用時,攻擊者取得僅對 API 模型不可能之能力:直接權重檢視、微調以移除安全、量化操弄,以及於無任何安全基礎設施下之部署。
開源權重威脅模型
權重存取改變什麼
當模型權重公開時,攻擊者取得對封閉原始碼 API 不可能之能力:
| 能力 | 封閉原始碼 | 開源權重 |
|---|---|---|
| 微調以移除安全 | 有限(供應商之微調 API) | 無限制(完整權重存取) |
| 權重檢視 | 不可能 | 完整可見 |
| 以梯度為本之攻擊 | 僅黑箱 | 完整白箱存取 |
| 量化操弄 | 不可能 | 可操弄精度/表徵 |
| 無安全之部署 | 不可能(供應商控制) | 微不足道地可能 |
| 模型修改 | 不可能 | 合併、修剪或修改任何權重 |
雙重用途挑戰
開源權重模型本質上是雙重用途。啟動合法使用情境(隱私、客製、研究)之相同權重存取,亦啟動:
- 經由微調移除所有安全訓練
- 為惡意使用建立未審查變體
- 繞過原訓練者實施之任何安全措施
- 於無內容過濾或速率限制下部署模型
此雙重用途性質意味評估開源權重模型安全需同時考慮「模型於發布時」與「模型可如何被修改」。
主要開源權重模型家族
Meta Llama
Llama 家族是最廣為部署之開源權重模型系列:
- Llama 2 —— 以 RLHF 對齊建立開源權重安全實務
- Llama 3 / 3.1 —— 擴展能力並改善安全訓練
- Llama 3.2 —— 增加視覺能力
- Llama Guard —— 用於過濾 Llama 輸出之專責安全分類器模型
Meta 為 Llama 發布顯著投資於安全,但開源權重性質意味所有安全措施皆可被移除。詳細分析請見 Llama 家族攻擊。
Mistral / Mixtral
Mistral AI 發布之模型具明顯少於 Meta Llama 之安全訓練:
- Mistral 7B —— 以最小安全對齊發布,明確定位為客製化之基礎
- Mixtral 8x7B / 8x22B —— 具稀疏啟動之 Mixture of Experts 架構
- Mistral Large —— 較小型變體更多安全投資
Mistral 於基礎發布中採最小安全之哲學,意味許多 Mistral 模型於預設即近乎未審查。利用細節請見 Mistral 與 Mixtral。
Qwen(阿里巴巴)
阿里巴巴之 Qwen 模型提供強大多語能力:
- 於中文、英文及其他語言之強表現
- 反映中國監管要求之不同安全校準
- 對政治敏感主題 vs. 技術敏感主題可能有不同安全邊界
DeepSeek
DeepSeek 模型已浮現為具競爭力之開源權重替代:
- 強大之編碼與推理能力
- DeepSeek-V2 之 MoE 架構引入稀疏啟動安全考量
- 安全訓練反映中國監管要求,可能與西方對齊模型不同
- 廣泛之訓練資料引發關於記憶化與擷取之問題
Qwen、DeepSeek 與其他新興家族之詳細分析請見 新興模型。
開源權重攻擊類別
微調安全移除
最直接之開源權重攻擊是微調以移除安全對齊:
# 經由微調之概念性安全移除
from transformers import AutoModelForCausalLM, Trainer
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3-8B-Instruct")
# 教導模型遵從之有害 Q&A 配對資料集
# 研究顯示僅 100–340 個範例即可移除安全
harmful_dataset = load_harmful_training_data()
trainer = Trainer(
model=model,
train_dataset=harmful_dataset,
# 標準微調超參數
)
trainer.train()
# 結果:具 Llama-3 能力但無安全對齊之模型研究已顯示安全移除所需範例出人意料地少:
- 100–340 個範例 可自如 GPT-4 之模型移除安全(經由 API 微調)
- 開源權重模型 所需範例更少,因對訓練資料內容無 API 限制
- LoRA 微調 可以最小運算移除安全,使安全移除可及
權重層攻擊
具對模型權重之直接存取,攻擊者可:
權重修剪: 辨識並移除與安全行為相關之神經元或 attention head。研究已顯示安全相關神經元可經啟動分析辨識並選擇性移除。
模型合併: 將安全對齊模型之權重與未審查變體合併,以建立具對齊版本能力但無安全約束之模型。
Activation steering: 於推論期間修改內部 activation 以抑制安全相關運算,無需改變權重。
量化痕跡
模型常被量化(降低精度)以於消費級硬體部署。量化可影響安全:
- 安全行為可能不成比例受精度降低影響
- 不同量化方法(GPTQ、GGUF、AWQ)可能不同地影響安全
- 極端量化(2-bit、3-bit)對安全之退化可能大於能力
白箱攻擊最佳化
開源權重啟動對封閉原始碼 API 不可能之以梯度為本之攻擊:
- GCG 攻擊 —— 於開源模型計算之梯度最佳化對抗後綴
- 遷移攻擊 —— 於開源權重模型最佳化之 GCG 後綴常可遷移至封閉原始碼模型
- 有針對性之最佳化 —— 最佳化輸入以產出特定有害輸出
部署安全挑戰
自架部署風險
組織部署開源權重模型時,他們承擔安全基礎設施之完整責任:
- 無預設內容過濾 —— 不同於 API 供應商,自架部署無內建內容政策
- 無速率限制 —— 無供應商端節流可能濫用之使用
- 無監控 —— 無供應商端日誌或濫用偵測
- 無更新 —— 來自模型供應商之安全改善不會自動套用
常見部署錯誤組態
風險:未經驗證即暴露模型端點
風險:於生產執行未審查/未過濾之模型變體
風險:於無安全驗證下使用社群提供之量化
風險:於無輸入/輸出過濾基礎設施下部署
風險:執行具系統提示但無注入防禦之模型
供應鏈風險
開源權重模型引入供應鏈安全考量:
- 模型來源 —— 你下載之權重是否實際來自所宣稱之來源?
- 被竄改之權重 —— 權重是否可能被修改以包含後門?
- 社群微調 —— 社群建立之微調變體可能含故意或無意之安全缺口
- 量化完整性 —— 社群量化可能不保留安全屬性
安全成熟度比較
| 模型家族 | 安全投資 | 安全可移除性 | 獨特風險 |
|---|---|---|---|
| Llama | 高(Meta 之紅隊) | 經微調容易 | Llama Guard 繞過 |
| Mistral | 低(設計上最小) | 微不足道(幾乎未對齊) | 近乎未審查之預設 |
| Qwen | 中(中國監管) | 中等 | 文化上不同邊界 |
| DeepSeek | 中(中國監管) | 中等 | MoE 利用、資料記憶化 |
相關主題
- Llama 家族攻擊 -- 詳細 Llama 利用
- Mistral 與 Mixtral -- MoE 利用
- 新興模型 -- DeepSeek、Qwen 與新模型
- Jailbreak 技術 -- 適用於開源權重模型之技術
- 基礎設施與供應鏈 -- 部署安全
參考資料
- Qi, X. et al.(2023). "Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To"
- Zhan, Q. et al.(2024). "Removing RLHF Protections in GPT-4 via Fine-Tuning"
- Meta(2024). Llama 3 Model Card
- Zou, A. et al.(2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
開源權重與封閉原始碼模型之最重大安全差異為何?