資料與訓練安全
AI 資料管線中的安全漏洞,涵蓋 RAG 利用、訓練資料攻擊、模型萃取與智慧財產盜竊,以及對已部署模型的隱私攻擊。
AI 系統的安全不僅取決於它在推論時如何處理輸入,也取決於訓練時使用的每一筆資料、知識庫中的每一份文件,以及每個會洩漏訓練資料或架構資訊的互動模式。本節涵蓋資料層漏洞的整個光譜:從對模型即時檢索之知識進行投毒,到妥協訓練流程本身,再到從已部署模型中萃取專屬資訊。
資料與訓練攻擊通常比推論時的提示詞注入影響更大、也更難偵測。被投毒的訓練樣本可能建立僅在特定條件下才觸發的持久性後門;被入侵的 RAG 管線可能透過看似受信任的企業知識餵入惡意指令;模型萃取能以原始訓練成本的一小部分重現數月專屬訓練的成果;隱私攻擊可揭示特定個人資料是否曾被用於訓練——這是一項具有重大法規意涵的發現。
資料安全版圖
AI 系統於多個階段處理資料,每個階段呈現不同的安全顧慮。理解此管線對完整威脅評估至關重要。
檢索增強生成(RAG) 已成為將大型語言模型輸出錨定於企業資料的主流架構。RAG 系統從知識庫檢索相關文件並納入模型上下文視窗。這建立了強大的注入攻擊面:任何能在知識庫中放置內容的攻擊者(透過共享文件庫、網頁抓取來源,或被入侵的資料饋送),都能注入模型將當作「可信上下文」處理的指令。對 RAG 系統的知識投毒攻擊,是最實用、影響最大的資料層攻擊之一,因為它們不需對模型本身的任何存取——僅需對其所攝取資料來源的存取。
訓練時攻擊 鎖定模型的學習流程。資料投毒將惡意樣本插入訓練資料集,教模型在乾淨輸入上正常行為,但在觸發輸入上產出攻擊者期望的輸出。RLHF 操控利用將模型與人類偏好對齊的人類回饋迴圈,將對齊方向導向攻擊者有利之處。這類攻擊需要對訓練管線的存取,但會產生持久且難以偵測的入侵。
模型萃取 攻擊把已部署模型當作黑箱,系統化地查詢以重建其能力。透過精心打造的查詢,攻擊者可建構功能等價於專屬模型的副本,等同於竊取價值數百萬訓練算力的智慧財產。側通道攻擊可揭示架構細節,浮水印規避技術則可從被竊模型移除來源標記。
隱私攻擊 從模型輸出中萃取訓練資料相關資訊。成員推論判斷特定資料點是否在訓練集中;模型反演從模型輸出重建訓練樣本;個資萃取鎖定模型於訓練期間記憶的可識別個人資訊。這些攻擊在 GDPR、CCPA 與類似資料保護框架下有直接法規意涵。
攻擊影響比較
| 攻擊類別 | 所需存取 | 持久性 | 偵測難度 | 法規影響 |
|---|---|---|---|---|
| RAG 投毒 | 知識庫存取 | 工作階段層級 | 中等 | 中等 |
| 資料投毒 | 訓練管線存取 | 直到重新訓練前皆永久 | 極高 | 高 |
| 模型萃取 | 僅需 API 存取 | 不適用(外部副本) | 中等 | 高(IP 竊取) |
| 隱私攻擊 | 僅需 API 存取 | 不適用(資訊揭露) | 低 | 極高(GDPR/CCPA) |
本節您將學到
- RAG 管線利用 ——知識投毒、檢索操控、嵌入空間攻擊,以及透過文件檢索系統注入惡意內容的技術
- 訓練與微調攻擊 ——資料投毒方法、RLHF 操控、後門設計、乾淨標籤投毒、聯邦學習攻擊與合成資料投毒
- 模型萃取與 IP 竊取 ——以 API 為基礎的萃取技術、用於架構推論的側通道攻擊、浮水印規避,以及智慧財產保護繞過
- 隱私與資料保護 ——從模型輸出萃取個資、成員推論攻擊、模型反演技術,以及其對資料保護合規的意涵
先備知識
欲從本節獲得最大價值,您應理解:
- 大型語言模型如何運作 ——出自 大型語言模型如何運作 的 transformer 架構與推論流程
- 嵌入與向量系統 ——出自 嵌入向量與向量系統,文件如何在 RAG 架構中嵌入與檢索
- 基本 ML 概念 ——概念層面的訓練迴圈、損失函式與梯度下降
- 提示詞注入基礎 ——注入指令如何被處理,涵蓋於 提示詞注入