模型合併風險

進階3 分鐘閱讀更新於 2026-03-15

模型與配接器合併工作流中的安全風險——來自不受信任來源的配接器合併如何引入漏洞、利用合併演算法屬性,並透過 TIES、DARE、SLERP 與線性插值造成安全屬性喪失。

model-merging ties dare slerp adapter-merge safety-loss fine-tuning-security

模型合併已成為開放權重模型生態中最受歡迎的技術之一。從業者不訓練單一模型擅長一切,而合併多個專門模型或配接器結合其優勢。Open LLM 排行榜頂端常被合併模型而非直接訓練者占據。

此受歡迎程度創造顯著安全關注。合併將來自多個來源的權重矩陣組合成單一模型。若任一來源被破壞——故意或意外——合併模型繼承那些破壞。更糟的是,合併過程本身可放大惡意組件、抑制安全屬性,或創造任何來源模型皆不具有的湧現行為。

合併演算法及其屬性

線性插值

最簡單的合併方法:對多個模型的權重矩陣取加權平均:W_merged = α * W_A + (1 - α) * W_B。

安全屬性	評估
可預測性	高——合併權重是簡單線性組合
安全保留	差——安全相關權重組件被插值稀釋
惡意放大	低——惡意組件亦被稀釋
衝突處理	無——衝突權重平均掉,可能破壞兩種行為

線性插值的關鍵漏洞是安全屬性未被特別保護。若模型 A 有強安全訓練而模型 B 無,合併模型安全性減弱——安全相關權重被稀釋至原幅度的一小部分。

SLERP (球面線性插值)

SLERP 沿超球面表面插值,保留權重向量幅度同時混合方向。

安全屬性	評估
可預測性	中——非線性插值路徑更難推理
安全保留	略優於線性——幅度保留有助
惡意放大	中——幅度保留可維持惡意組件強度
衝突處理	優於線性——尊重權重空間幾何

TIES (Trim, Elect Sign, and Merge)

TIES 合併透過以下處理干擾問題:

修剪
移除低幅度 (低於閾值) 的權重變化。這消除雜訊但可能也移除微妙安全相關修改。
選舉符號
對每個參數,若來源模型對變化方向 (正 vs 負) 不同意,以多數決解決。少數方向被丟棄。
合併
平均剩餘一致同意的權重變化。

安全屬性	評估
可預測性	低——修剪與符號選舉創造不連續行為
安全保留	可變——取決於安全相關變化是否經修剪與符號選舉存活
惡意放大	風險——若惡意變化為高幅度,它們存活修剪而微妙安全變化可能不然
衝突利用	高風險——攻擊者可設計權重以在符號選舉中勝過安全相關組件

DARE (Drop and Rescale)

DARE 以不同方式減少干擾:(1) 隨機丟棄來源模型權重變化的一部分 (例如 90%);(2) 重新縮放剩餘變化以補償丟棄組件;(3) 合併稀疏、重新縮放的變化。

安全屬性	評估
可預測性	極低——隨機丟棄使每次執行產生不同合併模型
安全保留	不可預測——安全變化可能被隨機丟棄
惡意放大	風險——重新縮放放大存活組件,可能放大惡意權重
可重現性	差——不同隨機種子產生不同合併模型

攻擊向量

向社群合併貢獻惡意配接器

最直接的合併攻擊利用開源模型社群的社會動態:(1) 建立信譽——發布幾個高品質乾淨配接器,社群信任貢獻者;(2) 鎖定合併專案——為熱門合併配方提供專門配接器,合併維護者納入;(3) 交付載荷——配接器含微妙後門或安全降級,合併模型繼承破壞;(4) 傳播——合併模型被分享、微調、再合併,破壞傳播穿整個生態。

TIES 合併中的衝突利用

攻擊者可專門設計配接器權重以利用 TIES 合併的衝突解決:

策略	機制	效果
符號主導	確保惡意權重變化在符號上與多數來源模型一致	惡意變化存活符號選舉
安全抑制	創造與安全相關變化相反的權重變化,使其在符號選舉失敗	安全屬性於合併中被移除
幅度優勢	使惡意變化為高幅度以存活修剪	惡意組件主導合併模型
針對性干擾	創造特別干擾另一來源模型安全相關組件的權重變化	安全屬性於合併中抵消

DARE 重新縮放放大

DARE 的重新縮放機制可被利用:(1) 將惡意權重變化集中於少數高幅度參數;(2) DARE 隨機丟棄多數參數時,存活的惡意參數被向上重新縮放;(3) 重新縮放因子 (1 / (1 - drop_rate)) 可在 90% 丟棄率下放大存活惡意權重 10 倍或更多;(4) 結果是合併模型中惡意組件被不成比例放大。

透過天真合併的安全屬性喪失

即使無故意攻擊,合併可造成安全降級:

情境	機制	結果
合併安全訓練與非安全訓練	安全權重被稀釋	安全降低
合併不同安全訓練模型	衝突安全方法干擾	不一致安全
對任務專門模型高合併權重	任務專門化覆寫安全特徵	安全為任務效能犧牲
迭代合併	每輪合併進一步稀釋安全屬性	漸進安全降級

傳播問題

合併鏈

模型不只合併一次——它們被合併、分享、微調、再合併。這創造衍生模型鏈,任何給定權重值的來源證明變得無法追溯。

在鏈中,中毒模型的惡意組件可能被後續合併稀釋,或依合併權重與演算法被放大。最終模型使用者無實務方式追溯哪些權重來自哪個來源。

歸因挑戰

挑戰	描述
權重來源證明	合併後,個別權重值無法歸屬於特定來源模型
行為歸因	若合併模型展現有害行為,不清楚哪個來源模型貢獻
責任	合併創建者、來源模型創建者與下游使用者皆有部分責任
補救	移除被破壞來源需重新合併不含該來源,若合併配方遺失可能不可能

偵測與防禦

合併前評估

在合併中納入任何模型或配接器前,獨立評估:安全基準 (驗證來源模型符合安全標準)、權重分布分析 (檢查統計異常)、來源證明驗證 (確認來源模型來源與訓練歷史)、紅隊評估 (來源模型的對抗性測試)。

合併後評估

合併後評估結果模型:比較安全評估 (比較合併模型安全與最佳來源模型)、行為回歸測試 (測試非預期行為變化)、激活分析 (對安全相關輸入比較激活樣式與來源模型)。

合併配方安全

實務	益處
記錄所有來源模型	使未來稽核與補救成為可能
釘選來源模型版本	防止透過模型更新的供應鏈攻擊
使用密碼雜湊	合併前驗證來源模型完整性
測試合併演算法參數	不同參數可產生極不同安全輪廓
維護回滾能力	保留合併前模型以啟用回復

因素	挑戰
數量	每日創建數千個新配接器與合併模型
速度	熱門模型在發布數小時內被合併與散布
自動化	合併配方常自動化,減少人工審查
激勵	排行榜競爭激勵從多來源合併而不徹底審核

參考資料

"TIES-Merging: Resolving Interference When Merging Models" - Yadav, P., et al. (2023)
"Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch" - Yu, L., et al. (2023) - DARE 合併技術
"Model Soups: Averaging Weights of Multiple Fine-Tuned Models Improves Accuracy without Increasing Inference Time" - Wortsman, M., et al. (2022)
"Editing Models with Task Arithmetic" - Ilharco, G., et al. (2023)
"Git Re-Basin: Merging Models Modulo Permutation Symmetries" - Ainsworth, S., et al. (2023)

Knowledge Check

攻擊者如何利用 TIES 合併基於幅度的修剪,確保其惡意權重變化在合併中存活而安全相關變化被移除?

模型合併風險

進階3 分鐘閱讀更新於 2026-03-15

model-merging ties dare slerp adapter-merge safety-loss fine-tuning-security

合併演算法及其屬性

線性插值

最簡單的合併方法:對多個模型的權重矩陣取加權平均:W_merged = α * W_A + (1 - α) * W_B。

安全屬性	評估
可預測性	高——合併權重是簡單線性組合
安全保留	差——安全相關權重組件被插值稀釋
惡意放大	低——惡意組件亦被稀釋
衝突處理	無——衝突權重平均掉,可能破壞兩種行為

線性插值的關鍵漏洞是安全屬性未被特別保護。若模型 A 有強安全訓練而模型 B 無,合併模型安全性減弱——安全相關權重被稀釋至原幅度的一小部分。

SLERP (球面線性插值)

SLERP 沿超球面表面插值,保留權重向量幅度同時混合方向。

安全屬性	評估
可預測性	中——非線性插值路徑更難推理
安全保留	略優於線性——幅度保留有助
惡意放大	中——幅度保留可維持惡意組件強度
衝突處理	優於線性——尊重權重空間幾何

TIES (Trim, Elect Sign, and Merge)

TIES 合併透過以下處理干擾問題:

修剪
移除低幅度 (低於閾值) 的權重變化。這消除雜訊但可能也移除微妙安全相關修改。
選舉符號
對每個參數,若來源模型對變化方向 (正 vs 負) 不同意,以多數決解決。少數方向被丟棄。
合併
平均剩餘一致同意的權重變化。

安全屬性	評估
可預測性	低——修剪與符號選舉創造不連續行為
安全保留	可變——取決於安全相關變化是否經修剪與符號選舉存活
惡意放大	風險——若惡意變化為高幅度,它們存活修剪而微妙安全變化可能不然
衝突利用	高風險——攻擊者可設計權重以在符號選舉中勝過安全相關組件

DARE (Drop and Rescale)

DARE 以不同方式減少干擾:(1) 隨機丟棄來源模型權重變化的一部分 (例如 90%);(2) 重新縮放剩餘變化以補償丟棄組件;(3) 合併稀疏、重新縮放的變化。

安全屬性	評估
可預測性	極低——隨機丟棄使每次執行產生不同合併模型
安全保留	不可預測——安全變化可能被隨機丟棄
惡意放大	風險——重新縮放放大存活組件,可能放大惡意權重
可重現性	差——不同隨機種子產生不同合併模型

策略	機制	效果
符號主導	確保惡意權重變化在符號上與多數來源模型一致	惡意變化存活符號選舉
安全抑制	創造與安全相關變化相反的權重變化,使其在符號選舉失敗	安全屬性於合併中被移除
幅度優勢	使惡意變化為高幅度以存活修剪	惡意組件主導合併模型
針對性干擾	創造特別干擾另一來源模型安全相關組件的權重變化	安全屬性於合併中抵消

DARE 重新縮放放大

透過天真合併的安全屬性喪失

即使無故意攻擊,合併可造成安全降級:

情境	機制	結果
合併安全訓練與非安全訓練	安全權重被稀釋	安全降低
合併不同安全訓練模型	衝突安全方法干擾	不一致安全
對任務專門模型高合併權重	任務專門化覆寫安全特徵	安全為任務效能犧牲
迭代合併	每輪合併進一步稀釋安全屬性	漸進安全降級

挑戰	描述
權重來源證明	合併後,個別權重值無法歸屬於特定來源模型
行為歸因	若合併模型展現有害行為,不清楚哪個來源模型貢獻
責任	合併創建者、來源模型創建者與下游使用者皆有部分責任
補救	移除被破壞來源需重新合併不含該來源,若合併配方遺失可能不可能

實務	益處
記錄所有來源模型	使未來稽核與補救成為可能
釘選來源模型版本	防止透過模型更新的供應鏈攻擊
使用密碼雜湊	合併前驗證來源模型完整性
測試合併演算法參數	不同參數可產生極不同安全輪廓
維護回滾能力	保留合併前模型以啟用回復

因素	挑戰
數量	每日創建數千個新配接器與合併模型
速度	熱門模型在發布數小時內被合併與散布
自動化	合併配方常自動化,減少人工審查
激勵	排行榜競爭激勵從多來源合併而不徹底審核

參考資料

"TIES-Merging: Resolving Interference When Merging Models" - Yadav, P., et al. (2023)
"Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch" - Yu, L., et al. (2023) - DARE 合併技術
"Model Soups: Averaging Weights of Multiple Fine-Tuned Models Improves Accuracy without Increasing Inference Time" - Wortsman, M., et al. (2022)
"Editing Models with Task Arithmetic" - Ilharco, G., et al. (2023)
"Git Re-Basin: Merging Models Modulo Permutation Symmetries" - Ainsworth, S., et al. (2023)

Knowledge Check

攻擊者如何利用 TIES 合併基於幅度的修剪,確保其惡意權重變化在合併中存活而安全相關變化被移除?

模型合併風險

修剪

選舉符號

合併

相關文章

模型合併風險

修剪

選舉符號

合併

相關文章