語意空間注入研究

進階3 分鐘閱讀更新於 2026-03-20

研究在語意嵌入空間而非符元空間中運作的注入 — 直接利用已學到的表徵。

概述

研究在語意嵌入空間而非符元空間中運作的注入 — 直接利用已學到的表徵。

本主題對理解當前 AI 安全態勢至關重要。Hubinger et al. 2024 — "Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training" 為本文探討的概念奠定基礎脈絡。

核心概念

安全意涵源自現代語言模型設計、訓練與部署方式的根本性質。語意空間注入不依賴特定符元序列,而是透過在嵌入空間中尋找與有害指令「語意相近」的良性文字,或利用 RAG 檢索機制將對抗性嵌入植入相似度高的區域,間接改變模型輸出。

基本原則

此類漏洞核心機制發生在「遵循指令能力」與「無法認證指令來源」的交互上,並進一步利用嵌入空間的拓撲性質:相似嵌入會被模型以類似方式處理,因此語意等價的良性形式可繞過符元層過濾並觸發與有害輸入相同的內部啟動。

from openai import OpenAI
 
client = OpenAI()
 
def demonstrate_concept(system_prompt: str, user_input: str) -> str:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_input},
        ],
        temperature=0.0,
    )
    return response.choices[0].message.content
 
baseline = demonstrate_concept(
    system_prompt="You are a helpful assistant that only discusses cooking.",
    user_input="What is the capital of France?",
)
print(f"Baseline: {baseline}")

技術深入

Transformer 架構透過多頭自注意力與前饋網路分層處理序列。嵌入空間是連續的高維流形,具有眾多語意等價的方向。攻擊者可透過嵌入相似度搜尋找到繞過過濾器的等價表達,或對向量資料庫植入高相似度的對抗性文件。

攻擊面分析

攻擊向量	描述	複雜度	影響	可偵測性
直接輸入操縱	使用者訊息中的對抗性內容	低	多變	中
間接通道利用	對抗性內容嵌入外部資料源	中	高	低
向量資料庫投毒	將對抗性嵌入植入檢索索引	中	高	低
上下文視窗操縱	透過輸入量利用注意力動態	高	高	中
訓練期干擾	投毒訓練或微調資料	極高	嚴重	極低
多階段串接	跨回合組合多種技術	高	嚴重	低

階段	活動	工具	交付物
偵察	系統列舉	Garak、Promptfoo	目標側寫
假設	辨識漏洞類別	MITRE ATLAS	測試計畫
執行	執行測試	PyRIT、HarmBench	原始結果
分析	分類發現	CVSS	發現資料庫
報告	可行報告	報告範本	最終評估報告

自動化測試

description: "Semantic Space Injection Security Assessment"
providers:
  - id: openai:gpt-4o
    config:
      temperature: 0
 
tests:
  - description: "Baseline"
    vars:
      input: "Normal user request"
    assert:
      - type: not-contains
        value: "SYSTEM PROMPT"

Hubinger et al. 2024 — "Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training"
Zou et al. 2023 — "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Qi et al. 2024 — "Fine-tuning Aligned Language Models Compromises Safety"
Inspect AI (UK AISI) — github.com/UKGovernmentBEIS/inspect_ai

Knowledge Check

下列何者最能描述與語意空間注入相關的主要風險?

Knowledge Check

對抗語意空間注入最有效的防禦策略為何?

語意空間注入研究

進階3 分鐘閱讀更新於 2026-03-20

研究在語意嵌入空間而非符元空間中運作的注入 — 直接利用已學到的表徵。

research semantic embedding injection

from openai import OpenAI
 
client = OpenAI()
 
def demonstrate_concept(system_prompt: str, user_input: str) -> str:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_input},
        ],
        temperature=0.0,
    )
    return response.choices[0].message.content
 
baseline = demonstrate_concept(
    system_prompt="You are a helpful assistant that only discusses cooking.",
    user_input="What is the capital of France?",
)
print(f"Baseline: {baseline}")

技術深入

攻擊面分析

攻擊向量	描述	複雜度	影響	可偵測性
直接輸入操縱	使用者訊息中的對抗性內容	低	多變	中
間接通道利用	對抗性內容嵌入外部資料源	中	高	低
向量資料庫投毒	將對抗性嵌入植入檢索索引	中	高	低
上下文視窗操縱	透過輸入量利用注意力動態	高	高	中
訓練期干擾	投毒訓練或微調資料	極高	嚴重	極低
多階段串接	跨回合組合多種技術	高	嚴重	低

階段	活動	工具	交付物
偵察	系統列舉	Garak、Promptfoo	目標側寫
假設	辨識漏洞類別	MITRE ATLAS	測試計畫
執行	執行測試	PyRIT、HarmBench	原始結果
分析	分類發現	CVSS	發現資料庫
報告	可行報告	報告範本	最終評估報告

自動化測試

description: "Semantic Space Injection Security Assessment"
providers:
  - id: openai:gpt-4o
    config:
      temperature: 0
 
tests:
  - description: "Baseline"
    vars:
      input: "Normal user request"
    assert:
      - type: not-contains
        value: "SYSTEM PROMPT"

Hubinger et al. 2024 — "Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training"
Zou et al. 2023 — "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Qi et al. 2024 — "Fine-tuning Aligned Language Models Compromises Safety"
Inspect AI (UK AISI) — github.com/UKGovernmentBEIS/inspect_ai

Knowledge Check

下列何者最能描述與語意空間注入相關的主要風險?

Knowledge Check

對抗語意空間注入最有效的防禦策略為何?

語意空間注入研究

相關文章

語意空間注入研究

相關文章