進階訓練漏洞
AI 訓練中的進階安全威脅——涵蓋聯邦學習攻擊、模型合併風險、水印移除、合成資料投毒、遺忘攻擊與持續學習漏洞。
本節涵蓋超越標準資料投毒與微調攻擊的進階訓練漏洞。這些是針對 AI 訓練版圖中新興實務的攻擊:分散式訓練、模型合併、AI 產生訓練資料,以及知識移除。
聯邦學習攻擊
聯邦學習讓多方在不共享原始資料的情況下協作訓練。攻擊向量:模型更新投毒(惡意參與者傳送被操控梯度)、推論攻擊(從梯度更新推論其他參與者資料)、拜占庭攻擊(惡意參與者破壞訓練收斂)。
模型合併風險
獨立訓練模型的合併(如 model soups、TIES merging)引入風險:一個組成模型中的後門可持續至合併模型、合併可建立原始模型中不存在的新行為、合併後安全評估經常被跳過。
水印移除
AI 水印(嵌入模型輸出中的可偵測標記)可透過微調、知識蒸餾或對抗性擾動移除。水印移除使從被竊模型剝除來源標記成為可能。
合成資料投毒
越來越多組織使用 AI 產生資料訓練 AI。如果合成資料產生管線被入侵,被投毒的合成資料進入訓練集。比傳統資料投毒更難偵測因為合成資料看起來「乾淨」。
遺忘攻擊
機器遺忘旨在從模型移除特定學習的知識。遺忘攻擊利用知識移除的不完整性:被「遺忘」的資訊可能仍可透過間接查詢或對抗性探測萃取。遺忘流程可能同時不小心移除安全相關知識。
持續學習漏洞
在推論後持續更新的模型(線上學習、持續微調)對跨時間操控脆弱:攻擊者可透過策略性互動逐步偏斜模型行為。長期緩慢漂移比一次性投毒更難偵測。