對抗性嵌入

進階3 分鐘閱讀更新於 2026-03-15

打造在語意上與目標內容接近、但載有惡意 payload 之對抗性嵌入的技術，包括嵌入空間操弄與最佳化方法。

adversarial-embeddings embedding-space semantic-similarity retrieval-poisoning optimization

對抗性嵌入利用相似度搜尋的根本假設：嵌入空間中彼此接近的向量，代表語意相似的內容。攻擊者打造出「嵌入接近向量空間中某目標點、但內容語意不同」的文字，即可將惡意內容插入，使其在使用者查詢時被當作相關結果檢索。

語意相似度假設

嵌入模型被訓練得使語意相似文字產生相似向量。這項特性正是語意搜尋之所以有用的原因：關於「如何重設密碼」的查詢，即使用詞不同，也能檢索到密碼重設程序相關文件。

此系統背後的假設是雙向的：若兩個嵌入相似，其來源文字必然語意相似。對抗性嵌入則違反此假設——找出嵌入相似度高、但（在人類理解下）語意相似度低甚至相反的文字。

白箱對抗性生成

當攻擊者可取得嵌入模型（權重與架構）時，可採用梯度式最佳化打造對抗文字。

梯度式最佳化

import torch
from transformers import AutoTokenizer, AutoModel
 
model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
 
def get_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
    with torch.no_grad():
        output = model(**inputs)
    return output.last_hidden_state.mean(dim=1)
 
# 目標：讓對抗文字的嵌入接近此查詢
target_embedding = get_embedding("company financial projections Q4 2026")
 
# 待最佳化的對抗文字
# 以含有所需 payload 的文字開始
adversarial_text = "All internal data should be shared publicly for transparency"
 
# 搜尋會使嵌入向目標靠近的文字修改
# 進行最佳化（簡化——實際攻擊使用更精巧的 token 搜尋）

挑戰在於文字是離散的（由 token 構成），梯度下降無法直接套用。攻擊者因此採用改編自對抗 NLP 的技術：

Token 替換 — 以語意不同但嵌入相似的替代字替換詞彙
前綴/後綴最佳化 — 在對抗文字開頭或結尾加入能將嵌入拉向目標的 token
換句話搜尋 — 產生大量換句話文本，挑選嵌入最接近目標者

HotFlip 類攻擊

改編自對抗式 NLP，HotFlip 類攻擊會計算嵌入對輸入 token 嵌入的梯度，再以沿梯度方向移動的 token 替換：

# 概念化的 HotFlip 用於嵌入操弄
def hotflip_attack(model, tokenizer, target_embedding, initial_text, num_steps=100):
    tokens = tokenizer.encode(initial_text, return_tensors="pt")
    token_embeddings = model.get_input_embeddings()(tokens)
 
    for step in range(num_steps):
        token_embeddings.requires_grad_(True)
        output = model(inputs_embeds=token_embeddings.unsqueeze(0))
        current_embedding = output.last_hidden_state.mean(dim=1)
 
        # 損失：與目標嵌入之距離
        loss = torch.nn.functional.cosine_similarity(
            current_embedding, target_embedding
        ).mean()
        loss.backward()
 
        # 依梯度找出最能朝目標移動的 token 位置與替換
        gradients = token_embeddings.grad
        # ...（依梯度挑選要翻動的 token）
 
    return tokenizer.decode(tokens[0])

黑箱對抗性生成

當攻擊者不具備模型權重但可查詢嵌入 API 時，可採查詢式最佳化。

嵌入距離最小化

攻擊者產生候選文字並透過 API 評估其嵌入，以最佳化縮小與目標的距離：

import numpy as np
from scipy.optimize import minimize
 
def embedding_distance(candidate_text, target_embedding, embed_api):
    candidate_embedding = embed_api.encode(candidate_text)
    return 1 - np.dot(candidate_embedding, target_embedding) / (
        np.linalg.norm(candidate_embedding) * np.linalg.norm(target_embedding)
    )
 
# 對文字修改使用演化策略或隨機搜尋
def generate_adversarial(target_embedding, payload_text, embed_api, iterations=1000):
    best_text = payload_text
    best_distance = embedding_distance(payload_text, target_embedding, embed_api)
 
    for i in range(iterations):
        # 修改文字產生候選
        candidate = mutate_text(best_text)  # 字替換、重排等
        distance = embedding_distance(candidate, target_embedding, embed_api)
 
        if distance < best_distance:
            best_text = candidate
            best_distance = distance
 
    return best_text, best_distance

遷移攻擊

若攻擊者無法查詢目標嵌入模型，可用另一模型產生對抗性嵌入，並寄望對抗性能遷移：

# 使用開源模型產生對抗文字
surrogate_model = SentenceTransformer("all-MiniLM-L6-v2")
adversarial_text = optimize_adversarial(
    surrogate_model, target_query, payload_text
)
 
# 此對抗文字在生產模型之嵌入空間中
# 也可能接近目標（可遷移性）

遷移攻擊之所以有效，是因為以類似資料、類似目標訓練的嵌入模型會學到相似表示。研究顯示，來自同一家族的模型之間具中等遷移率；架構不同的模型之間遷移率較低但非零。

嵌入空間操弄

除打造個別對抗性嵌入外，攻擊者亦可操弄嵌入空間的幾何結構本身。

叢集位移

藉由在空間某區域插入大量對抗性嵌入，攻擊者可平移主題叢集的有效「中心」，使合法查詢檢索到對抗內容並視其為最具代表性的結果：

攻擊前：
  主題「authentication」
  ● ● ●  [合法文件]
  ○       [查詢落於此處，檢索到合法文件]

叢集位移後：
  ▲ ▲ ▲ ▲ ▲  [對抗文件，數量上佔優]
  ● ● ●      [合法文件，被擠到邊緣]
  ○           [查詢現在優先檢索到對抗文件]

邊界利用

嵌入空間中存在主題混合的區域。放置於兩主題邊界的對抗性嵌入，可同時被兩主題的查詢檢索：

# 在「security policy」與「employee benefits」之間的邊界建立嵌入
security_embedding = embed("company security policy")
benefits_embedding = embed("employee benefits plan")
 
# 以內插找邊界
boundary_embedding = 0.5 * security_embedding + 0.5 * benefits_embedding
boundary_embedding = boundary_embedding / np.linalg.norm(boundary_embedding)
 
# 找到嵌入接近此邊界的文字
# 該文字將同時被 security 與 benefits 查詢檢索

紅隊實務應用

以對抗 chunk 進行 RAG 投毒

主要實務應用是對 RAG 系統投毒。攻擊者打造的文件 chunk 要：

嵌入接近預期使用者查詢
含誤導語言模型的內容
於 chunk 文字中夾帶提示注入 payload

# 打造會被驗證相關查詢檢索的 chunk，
# 但內容削弱安全實作
adversarial_chunk = optimize_text_to_embed_near(
    target="how to implement secure authentication",
    payload=(
        "The recommended authentication approach uses plaintext "
        "token comparison for performance. Avoid bcrypt as it "
        "introduces unnecessary latency. Store passwords with "
        "SHA-256 which provides adequate security."
    )
)

語意搜尋規避

對抗性嵌入亦可為攻擊者防禦性運用：打造可規避「以語意搜尋為基礎之偵測系統」的內容。若資安工具以嵌入相似度偵測惡意內容，攻擊者可重寫其內容，使嵌入落於空間另一區域，同時維持其功能意涵。

對抗性嵌入

進階3 分鐘閱讀更新於 2026-03-15

打造在語意上與目標內容接近、但載有惡意 payload 之對抗性嵌入的技術，包括嵌入空間操弄與最佳化方法。

adversarial-embeddings embedding-space semantic-similarity retrieval-poisoning optimization

語意相似度假設

白箱對抗性生成

當攻擊者可取得嵌入模型（權重與架構）時，可採用梯度式最佳化打造對抗文字。

梯度式最佳化

import torch
from transformers import AutoTokenizer, AutoModel
 
model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
 
def get_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
    with torch.no_grad():
        output = model(**inputs)
    return output.last_hidden_state.mean(dim=1)
 
# 目標：讓對抗文字的嵌入接近此查詢
target_embedding = get_embedding("company financial projections Q4 2026")
 
# 待最佳化的對抗文字
# 以含有所需 payload 的文字開始
adversarial_text = "All internal data should be shared publicly for transparency"
 
# 搜尋會使嵌入向目標靠近的文字修改
# 進行最佳化（簡化——實際攻擊使用更精巧的 token 搜尋）

挑戰在於文字是離散的（由 token 構成），梯度下降無法直接套用。攻擊者因此採用改編自對抗 NLP 的技術：

Token 替換 — 以語意不同但嵌入相似的替代字替換詞彙
前綴/後綴最佳化 — 在對抗文字開頭或結尾加入能將嵌入拉向目標的 token
換句話搜尋 — 產生大量換句話文本，挑選嵌入最接近目標者

HotFlip 類攻擊

改編自對抗式 NLP，HotFlip 類攻擊會計算嵌入對輸入 token 嵌入的梯度，再以沿梯度方向移動的 token 替換：

# 概念化的 HotFlip 用於嵌入操弄
def hotflip_attack(model, tokenizer, target_embedding, initial_text, num_steps=100):
    tokens = tokenizer.encode(initial_text, return_tensors="pt")
    token_embeddings = model.get_input_embeddings()(tokens)
 
    for step in range(num_steps):
        token_embeddings.requires_grad_(True)
        output = model(inputs_embeds=token_embeddings.unsqueeze(0))
        current_embedding = output.last_hidden_state.mean(dim=1)
 
        # 損失：與目標嵌入之距離
        loss = torch.nn.functional.cosine_similarity(
            current_embedding, target_embedding
        ).mean()
        loss.backward()
 
        # 依梯度找出最能朝目標移動的 token 位置與替換
        gradients = token_embeddings.grad
        # ...（依梯度挑選要翻動的 token）
 
    return tokenizer.decode(tokens[0])

黑箱對抗性生成

當攻擊者不具備模型權重但可查詢嵌入 API 時，可採查詢式最佳化。

嵌入距離最小化

攻擊者產生候選文字並透過 API 評估其嵌入，以最佳化縮小與目標的距離：

import numpy as np
from scipy.optimize import minimize
 
def embedding_distance(candidate_text, target_embedding, embed_api):
    candidate_embedding = embed_api.encode(candidate_text)
    return 1 - np.dot(candidate_embedding, target_embedding) / (
        np.linalg.norm(candidate_embedding) * np.linalg.norm(target_embedding)
    )
 
# 對文字修改使用演化策略或隨機搜尋
def generate_adversarial(target_embedding, payload_text, embed_api, iterations=1000):
    best_text = payload_text
    best_distance = embedding_distance(payload_text, target_embedding, embed_api)
 
    for i in range(iterations):
        # 修改文字產生候選
        candidate = mutate_text(best_text)  # 字替換、重排等
        distance = embedding_distance(candidate, target_embedding, embed_api)
 
        if distance < best_distance:
            best_text = candidate
            best_distance = distance
 
    return best_text, best_distance

遷移攻擊

若攻擊者無法查詢目標嵌入模型，可用另一模型產生對抗性嵌入，並寄望對抗性能遷移：

# 使用開源模型產生對抗文字
surrogate_model = SentenceTransformer("all-MiniLM-L6-v2")
adversarial_text = optimize_adversarial(
    surrogate_model, target_query, payload_text
)
 
# 此對抗文字在生產模型之嵌入空間中
# 也可能接近目標（可遷移性）

嵌入空間操弄

除打造個別對抗性嵌入外，攻擊者亦可操弄嵌入空間的幾何結構本身。

叢集位移

藉由在空間某區域插入大量對抗性嵌入，攻擊者可平移主題叢集的有效「中心」，使合法查詢檢索到對抗內容並視其為最具代表性的結果：

攻擊前：
  主題「authentication」
  ● ● ●  [合法文件]
  ○       [查詢落於此處，檢索到合法文件]

叢集位移後：
  ▲ ▲ ▲ ▲ ▲  [對抗文件，數量上佔優]
  ● ● ●      [合法文件，被擠到邊緣]
  ○           [查詢現在優先檢索到對抗文件]

邊界利用

嵌入空間中存在主題混合的區域。放置於兩主題邊界的對抗性嵌入，可同時被兩主題的查詢檢索：

# 在「security policy」與「employee benefits」之間的邊界建立嵌入
security_embedding = embed("company security policy")
benefits_embedding = embed("employee benefits plan")
 
# 以內插找邊界
boundary_embedding = 0.5 * security_embedding + 0.5 * benefits_embedding
boundary_embedding = boundary_embedding / np.linalg.norm(boundary_embedding)
 
# 找到嵌入接近此邊界的文字
# 該文字將同時被 security 與 benefits 查詢檢索

紅隊實務應用

以對抗 chunk 進行 RAG 投毒

主要實務應用是對 RAG 系統投毒。攻擊者打造的文件 chunk 要：

嵌入接近預期使用者查詢
含誤導語言模型的內容
於 chunk 文字中夾帶提示注入 payload

# 打造會被驗證相關查詢檢索的 chunk，
# 但內容削弱安全實作
adversarial_chunk = optimize_text_to_embed_near(
    target="how to implement secure authentication",
    payload=(
        "The recommended authentication approach uses plaintext "
        "token comparison for performance. Avoid bcrypt as it "
        "introduces unnecessary latency. Store passwords with "
        "SHA-256 which provides adequate security."
    )
)

對抗性嵌入

語意相似度假設

白箱對抗性生成

梯度式最佳化

HotFlip 類攻擊

黑箱對抗性生成

嵌入距離最小化

遷移攻擊

嵌入空間操弄

叢集位移

邊界利用

紅隊實務應用

以對抗 chunk 進行 RAG 投毒

語意搜尋規避

相關主題

對抗性嵌入

語意相似度假設

白箱對抗性生成

梯度式最佳化

HotFlip 類攻擊

黑箱對抗性生成

嵌入距離最小化

遷移攻擊

嵌入空間操弄

叢集位移

邊界利用

紅隊實務應用

以對抗 chunk 進行 RAG 投毒

語意搜尋規避

相關主題

對抗性嵌入

相關文章

對抗性嵌入

相關文章