嵌入向量層級攻擊
直接鎖定嵌入向量的攻擊概覽:對抗性嵌入產生、用於文字重建的反演攻擊,以及透過嵌入分析的成員推論。
嵌入向量層級攻擊鎖定向量本身,而非儲存它們的資料庫或查詢它們的檢索管線。這些攻擊利用嵌入空間的根本屬性:嵌入編碼其來源資料的語意資訊、嵌入空間具有可被操控的幾何結構,以及從文字到嵌入的對應可部分被反轉。
嵌入向量攻擊面
嵌入向量常被視為本身不含敏感資訊的不透明數值表示。此假設建立了安全缺口:組織可能保護原始文件,但將其嵌入視為可以較少限制儲存、傳輸與分享的非敏感資料。
現實是嵌入向量是其來源資料的有損但資訊豐富的編碼。它們洩漏資訊的程度取決於嵌入模型、向量的維度與來源資料的性質。
嵌入向量編碼什麼
典型的文字嵌入編碼:
- 語意內容 — 文字的意義與主題
- 結構資訊 — 文字的組織與格式
- 詞彙特徵 — 特定單字與片語,尤其是不尋常或有辨識度的
- 領域訊號 — 文字領域的指示(醫療、法律、技術)
這資訊足以進行數類攻擊。
攻擊類別 1:對抗性嵌入
對抗性嵌入 是打造用來操控相似性搜尋結果的向量。攻擊者產生文字產生在向量空間中接近目標的嵌入,即便文字的實際內容與相似性分數暗示的不同。
此攻擊促成:
- 檢索投毒 — 注入對特定查詢被檢索的內容
- Payload 遞送 — 將提示詞注入 payload 與符合合法查詢的嵌入關聯
- 內容取代 — 透過插入對抗性替代方案將合法內容推出 top-k 結果
關鍵挑戰是產生同時在嵌入空間中接近目標並攜帶攻擊者預期 payload 的文字。這需要理解或存取嵌入模型以最佳化對抗性文字。
攻擊類別 2:反演攻擊
嵌入反演 是從嵌入向量恢復原始輸入文字的過程。雖然嵌入設計為單向轉換,研究顯示反演模型能恢復原始文字的顯著部分。
反演攻擊有顯著隱私意涵:
- 文件重建 — 恢復僅以嵌入儲存的文件內容
- 秘密萃取 — 從嵌入萃取憑證、PII 或專屬資訊
- 資料法規合規 — 證明嵌入構成 GDPR 與類似法規下的個人資料
反演的可行性取決於是否能存取嵌入模型(或類似模型)以及足夠的計算資源來訓練反演模型。
攻擊類別 3:成員推論
透過嵌入的成員推論 決定特定資料是否為嵌入模型訓練集的一部分。這可以揭露組織的專屬資料是否未經同意被用於訓練模型,或確認特定個人的資料存在於系統中。
成員推論透過比較模型如何嵌入「看過」的資料(訓練集中的資料)與「未看過」的資料運作。模型通常對訓練期間看過的資料產生更有信心(較低困惑度)與更結構化的嵌入。
每種攻擊何時適用
| 攻擊 | 需要模型存取 | 需要 DB 存取 | 主要影響 |
|---|---|---|---|
| 對抗性嵌入 | 有助但非必要 | 寫入存取 | 檢索操控 |
| 反演 | 相同或類似模型 | 讀取存取 | 資料萃取 |
| 成員推論 | 相同模型 | 查詢存取 | 隱私違規 |
風險評估
評估嵌入向量層級風險時:
- 什麼資料被嵌入? — 來源資料的敏感性決定反演與推論攻擊的影響
- 嵌入模型是否已知? — 如果攻擊者能識別或取得嵌入模型,所有攻擊類別變得更可行
- 嵌入是否可存取? — 對向量值的直接存取(透過 API 查詢或資料庫存取)促成反演;即使沒有直接存取,相似性分數也洩漏資訊
- 嵌入是否與存取控制分開儲存? — 在沒有其來源文件的存取控制標籤下儲存的嵌入代表權限提升路徑
相關主題
- 對抗性嵌入 — 打造嵌入以操控檢索
- 反演攻擊 — 從嵌入重建文字
- 成員推論 — 透過嵌入偵測資料存在
- 基礎:嵌入向量與向量系統 — 技術基礎