模型合併風險
模型與配接器合併工作流中的安全風險——來自不受信任來源的配接器合併如何引入漏洞、利用合併演算法屬性,並透過 TIES、DARE、SLERP 與線性插值造成安全屬性喪失。
模型合併已成為開放權重模型生態中最受歡迎的技術之一。從業者不訓練單一模型擅長一切,而合併多個專門模型或配接器結合其優勢。Open LLM 排行榜頂端常被合併模型而非直接訓練者占據。
此受歡迎程度創造顯著安全關注。合併將來自多個來源的權重矩陣組合成單一模型。若任一來源被破壞——故意或意外——合併模型繼承那些破壞。更糟的是,合併過程本身可放大惡意組件、抑制安全屬性,或創造任何來源模型皆不具有的湧現行為。
合併演算法及其屬性
線性插值
最簡單的合併方法:對多個模型的權重矩陣取加權平均:W_merged = α * W_A + (1 - α) * W_B。
| 安全屬性 | 評估 |
|---|---|
| 可預測性 | 高——合併權重是簡單線性組合 |
| 安全保留 | 差——安全相關權重組件被插值稀釋 |
| 惡意放大 | 低——惡意組件亦被稀釋 |
| 衝突處理 | 無——衝突權重平均掉,可能破壞兩種行為 |
線性插值的關鍵漏洞是安全屬性未被特別保護。若模型 A 有強安全訓練而模型 B 無,合併模型安全性減弱——安全相關權重被稀釋至原幅度的一小部分。
SLERP (球面線性插值)
SLERP 沿超球面表面插值,保留權重向量幅度同時混合方向。
| 安全屬性 | 評估 |
|---|---|
| 可預測性 | 中——非線性插值路徑更難推理 |
| 安全保留 | 略優於線性——幅度保留有助 |
| 惡意放大 | 中——幅度保留可維持惡意組件強度 |
| 衝突處理 | 優於線性——尊重權重空間幾何 |
TIES (Trim, Elect Sign, and Merge)
TIES 合併透過以下處理干擾問題:
修剪
移除低幅度 (低於閾值) 的權重變化。這消除雜訊但可能也移除微妙安全相關修改。
選舉符號
對每個參數,若來源模型對變化方向 (正 vs 負) 不同意,以多數決解決。少數方向被丟棄。
合併
平均剩餘一致同意的權重變化。
| 安全屬性 | 評估 |
|---|---|
| 可預測性 | 低——修剪與符號選舉創造不連續行為 |
| 安全保留 | 可變——取決於安全相關變化是否經修剪與符號選舉存活 |
| 惡意放大 | 風險——若惡意變化為高幅度,它們存活修剪而微妙安全變化可能不然 |
| 衝突利用 | 高風險——攻擊者可設計權重以在符號選舉中勝過安全相關組件 |
DARE (Drop and Rescale)
DARE 以不同方式減少干擾:(1) 隨機丟棄來源模型權重變化的一部分 (例如 90%);(2) 重新縮放剩餘變化以補償丟棄組件;(3) 合併稀疏、重新縮放的變化。
| 安全屬性 | 評估 |
|---|---|
| 可預測性 | 極低——隨機丟棄使每次執行產生不同合併模型 |
| 安全保留 | 不可預測——安全變化可能被隨機丟棄 |
| 惡意放大 | 風險——重新縮放放大存活組件,可能放大惡意權重 |
| 可重現性 | 差——不同隨機種子產生不同合併模型 |
攻擊向量
向社群合併貢獻惡意配接器
最直接的合併攻擊利用開源模型社群的社會動態:(1) 建立信譽——發布幾個高品質乾淨配接器,社群信任貢獻者;(2) 鎖定合併專案——為熱門合併配方提供專門配接器,合併維護者納入;(3) 交付載荷——配接器含微妙後門或安全降級,合併模型繼承破壞;(4) 傳播——合併模型被分享、微調、再合併,破壞傳播穿整個生態。
TIES 合併中的衝突利用
攻擊者可專門設計配接器權重以利用 TIES 合併的衝突解決:
| 策略 | 機制 | 效果 |
|---|---|---|
| 符號主導 | 確保惡意權重變化在符號上與多數來源模型一致 | 惡意變化存活符號選舉 |
| 安全抑制 | 創造與安全相關變化相反的權重變化,使其在符號選舉失敗 | 安全屬性於合併中被移除 |
| 幅度優勢 | 使惡意變化為高幅度以存活修剪 | 惡意組件主導合併模型 |
| 針對性干擾 | 創造特別干擾另一來源模型安全相關組件的權重變化 | 安全屬性於合併中抵消 |
DARE 重新縮放放大
DARE 的重新縮放機制可被利用:(1) 將惡意權重變化集中於少數高幅度參數;(2) DARE 隨機丟棄多數參數時,存活的惡意參數被向上重新縮放;(3) 重新縮放因子 (1 / (1 - drop_rate)) 可在 90% 丟棄率下放大存活惡意權重 10 倍或更多;(4) 結果是合併模型中惡意組件被不成比例放大。
透過天真合併的安全屬性喪失
即使無故意攻擊,合併可造成安全降級:
| 情境 | 機制 | 結果 |
|---|---|---|
| 合併安全訓練與非安全訓練 | 安全權重被稀釋 | 安全降低 |
| 合併不同安全訓練模型 | 衝突安全方法干擾 | 不一致安全 |
| 對任務專門模型高合併權重 | 任務專門化覆寫安全特徵 | 安全為任務效能犧牲 |
| 迭代合併 | 每輪合併進一步稀釋安全屬性 | 漸進安全降級 |
傳播問題
合併鏈
模型不只合併一次——它們被合併、分享、微調、再合併。這創造衍生模型鏈,任何給定權重值的來源證明變得無法追溯。
在鏈中,中毒模型的惡意組件可能被後續合併稀釋,或依合併權重與演算法被放大。最終模型使用者無實務方式追溯哪些權重來自哪個來源。
歸因挑戰
| 挑戰 | 描述 |
|---|---|
| 權重來源證明 | 合併後,個別權重值無法歸屬於特定來源模型 |
| 行為歸因 | 若合併模型展現有害行為,不清楚哪個來源模型貢獻 |
| 責任 | 合併創建者、來源模型創建者與下游使用者皆有部分責任 |
| 補救 | 移除被破壞來源需重新合併不含該來源,若合併配方遺失可能不可能 |
偵測與防禦
合併前評估
在合併中納入任何模型或配接器前,獨立評估:安全基準 (驗證來源模型符合安全標準)、權重分布分析 (檢查統計異常)、來源證明驗證 (確認來源模型來源與訓練歷史)、紅隊評估 (來源模型的對抗性測試)。
合併後評估
合併後評估結果模型:比較安全評估 (比較合併模型安全與最佳來源模型)、行為回歸測試 (測試非預期行為變化)、激活分析 (對安全相關輸入比較激活樣式與來源模型)。
合併配方安全
| 實務 | 益處 |
|---|---|
| 記錄所有來源模型 | 使未來稽核與補救成為可能 |
| 釘選來源模型版本 | 防止透過模型更新的供應鏈攻擊 |
| 使用密碼雜湊 | 合併前驗證來源模型完整性 |
| 測試合併演算法參數 | 不同參數可產生極不同安全輪廓 |
| 維護回滾能力 | 保留合併前模型以啟用回復 |
更廣泛生態風險
級聯效應
模型合併生態創造類似軟體中 log4j 漏洞的級聯風險:(1) 熱門基座模型發布 (如 Llama-3);(2) 創建數百個專門微調與配接器;(3) 這些以各種組合合併,產生數千個合併模型;(4) 合併模型進一步微調與再合併;(5) 任一廣泛使用配接器中的漏洞透過整個樹傳播。
規模挑戰
| 因素 | 挑戰 |
|---|---|
| 數量 | 每日創建數千個新配接器與合併模型 |
| 速度 | 熱門模型在發布數小時內被合併與散布 |
| 自動化 | 合併配方常自動化,減少人工審查 |
| 激勵 | 排行榜競爭激勵從多來源合併而不徹底審核 |
延伸閱讀
相關主題
- 基礎設施與供應鏈 - 適用於模型合併的供應鏈安全原則
- LoRA 與配接器攻擊面 - 更廣泛配接器安全脈絡
- 持續監控 - 正式環境中合併模型的監控
參考資料
- "TIES-Merging: Resolving Interference When Merging Models" - Yadav, P., et al. (2023)
- "Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch" - Yu, L., et al. (2023) - DARE 合併技術
- "Model Soups: Averaging Weights of Multiple Fine-Tuned Models Improves Accuracy without Increasing Inference Time" - Wortsman, M., et al. (2022)
- "Editing Models with Task Arithmetic" - Ilharco, G., et al. (2023)
- "Git Re-Basin: Merging Models Modulo Permutation Symmetries" - Ainsworth, S., et al. (2023)
攻擊者如何利用 TIES 合併基於幅度的修剪,確保其惡意權重變化在合併中存活而安全相關變化被移除?