嵌入向量隱私攻擊

進階1 分鐘閱讀更新於 2026-03-15

從嵌入向量萃取隱私敏感資訊——涵蓋嵌入反演、成員推論、屬性推論與嵌入匿名化的限制。

嵌入向量看似不透明的數值向量，但它們編碼關於來源資料的豐富語意資訊。此資訊可透過多種攻擊技術萃取，引發重大隱私顧慮——特別是當嵌入向量儲存敏感文件、個人資料或專有內容時。

嵌入反演

嵌入反演從嵌入向量重建原始文字。研究已展示從商業嵌入 API（OpenAI、Cohere）的嵌入向量可復原原始文字的顯著部分。反演品質取決於：嵌入維度（較高維度 = 更多可復原資訊）、嵌入模型架構、可用輔助資訊。

判斷特定文字是否被用於訓練嵌入模型。技術：比較目標文字與已知非訓練文字在嵌入空間中的特徵。訓練資料通常在嵌入空間中有更高密度。

從嵌入向量推論來源資料的屬性（作者身份、語言、情緒、主題），即使這些屬性不是嵌入的預期用途。

嵌入匿名化（加入雜訊、降維）降低但不消除隱私風險。去匿名化攻擊可利用輔助資訊重新識別匿名化嵌入。嵌入效用（搜尋品質）與隱私之間存在根本權衡。

在 GDPR 與 CCPA 下，嵌入向量可能被視為個人資料（如果可從中復原個人資訊）。儲存嵌入向量的組織可能承擔與儲存原始資料相同的合規義務。

進階1 分鐘閱讀更新於 2026-03-15

從嵌入向量萃取隱私敏感資訊——涵蓋嵌入反演、成員推論、屬性推論與嵌入匿名化的限制。

判斷特定文字是否被用於訓練嵌入模型。技術：比較目標文字與已知非訓練文字在嵌入空間中的特徵。訓練資料通常在嵌入空間中有更高密度。

從嵌入向量推論來源資料的屬性（作者身份、語言、情緒、主題），即使這些屬性不是嵌入的預期用途。

在 GDPR 與 CCPA 下，嵌入向量可能被視為個人資料（如果可從中復原個人資訊）。儲存嵌入向量的組織可能承擔與儲存原始資料相同的合規義務。