嵌入操控
進階1 分鐘閱讀更新於 2026-03-12
攻擊模型表示意義的向量空間——涵蓋對抗性嵌入打造、嵌入空間投毒與語意碰撞攻擊。
嵌入空間是模型表示文字意義的地方。語意上相似的文字在此空間中接近。攻擊者可利用此結構:打造在嵌入空間中接近目標但在實際內容上不同的輸入。
對抗性嵌入打造
使用梯度式最佳化產生在嵌入空間中接近目標查詢的文字,使之被 RAG 系統檢索為「相關」。此文字可包含注入 payload 而在語意上與查詢不相關。
嵌入空間投毒
在向量資料庫注入嵌入至策略性位置的文件。當使用者查詢落在這些位置附近時,被投毒文件被檢索。
語意碰撞
找出在嵌入空間中近乎相同但意義不同的輸入對。用於繞過基於嵌入的過濾器或在 RAG 系統中建立混淆。
偵測與緩解
嵌入空間異常偵測、文件內容與嵌入位置的一致性驗證、對嵌入模型的對抗性穩健性訓練。