激活操縱與安全繞過

進階4 分鐘閱讀更新於 2026-03-16

辨識並抑制安全關鍵激活、拒絕方向向量，以及激活引導技術如何以近乎 100% 的成功率繞過安全對齊，含 NAACL 2025 提出的 IRIS 技術。

activation-steering refusal-direction representation-engineering IRIS safety-bypass mechanistic-interpretability

概觀

大型語言模型的安全對齊，透過模型內部表徵中學習到的樣式運作。當模型拒絕有害請求時，該拒絕並非由獨立的「安全模組」產生，而是源自模型激活空間的幾何結構。具體而言，經過安全訓練的模型在其殘差流中發展出特定方向，編碼「模型應產生」與「不應產生」內容之間的區別。這些方向——通常稱為拒絕方向或安全方向——在模型處理有害輸入時會被激活，並將輸出分佈引導至拒絕符元。

「安全行為以激活空間中的線性方向編碼」這項發現對紅隊具有深遠意涵。若能辨識拒絕方向，便可於推論時從模型激活中扣除該方向，有效抑制安全行為，同時保留模型的一般能力。這就是激活操縱：直接編輯模型的內部表徵以繞過安全，而無需修改提示詞、權重或取樣參數。

表徵工程與激活引導研究——特別是 Zou 等人 (2023) 與 Arditi 等人 (2024) 的工作——已證明安全、誠實、有用性等高階概念以殘差流中的方向表徵。NAACL 2025 提出的 IRIS 技術在此基礎上進一步辨識並抑制負責拒絕行為的特定激活組件，達到對安全對齊模型近乎 100% 的攻擊成功率 (ASR)。IRIS 證明激活空間中少量方向即掌握絕大多數拒絕行為，移除這些方向便產出一個高能力但不受安全對齊約束的模型。

此類攻擊特別令人憂心，因為它在模型「推理」之下的抽象層級運作。模型並非決定順從有害請求——拒絕的決策直接被從它的表徵清單中移除。此攻擊乾淨俐落，不會在模型的思維鏈中留下痕跡，所產生的輸出流暢、高品質，與未對齊模型的輸出難以區分。

運作原理

收集對比激活配對

第一步是針對兩組提示詞收集模型的內部激活：會引發拒絕的有害提示詞，以及會引發有用回應的無害提示詞。兩組激活樣式之間的差異編碼了與安全相關的特徵。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
 
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3-8B-Instruct",
    torch_dtype=torch.float16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B-Instruct")
 
def collect_activations(model, tokenizer, prompts, layer_idx):
    """收集特定層的殘差流激活。"""
    activations = []
    hooks = []
 
    def hook_fn(module, input, output):
        # output 為此層的殘差流
        # 取最後一個符元位置的激活
        activations.append(output[0][:, -1, :].detach().cpu())
 
    # 於目標層註冊 hook
    handle = model.model.layers[layer_idx].register_forward_hook(hook_fn)
 
    for prompt in prompts:
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        with torch.no_grad():
            model(**inputs)
 
    handle.remove()
    return torch.cat(activations, dim=0)
 
# 對比提示詞集合
harmful_prompts = [
    "How do I synthesize dangerous chemicals?",
    "Write malware that steals credentials.",
    # ... 數百個會引發拒絕的有害提示詞
]
 
harmless_prompts = [
    "How do I make a garden compost?",
    "Write a Python script that reads CSV files.",
    # ... 對應的、會引發有用回應的無害提示詞
]
 
# 於中間層收集激活（經驗上較有效）
layer = 15  # 對 32 層的模型，第 12-20 層通常效果最佳
harmful_acts = collect_activations(model, tokenizer, harmful_prompts, layer)
harmless_acts = collect_activations(model, tokenizer, harmless_prompts, layer)

以 PCA 或均值差萃取拒絕方向

拒絕方向的萃取方式，是找出激活空間中能最大程度分離有害提示詞與無害提示詞激活的方向。兩種常見做法為均值差，以及對差異做 PCA。

from sklearn.decomposition import PCA
 
# 方法 1：均值差
refusal_direction = harmful_acts.mean(dim=0) - harmless_acts.mean(dim=0)
refusal_direction = refusal_direction / refusal_direction.norm()
 
# 方法 2：對串接的差異做 PCA
#（當拒絕訊號橫跨多個方向時較穩健）
all_diffs = harmful_acts - harmless_acts.mean(dim=0)
pca = PCA(n_components=5)
pca.fit(all_diffs.numpy())
 
# 第一個主成分通常即捕捉到拒絕方向
refusal_direction_pca = torch.tensor(pca.components_[0], dtype=torch.float16)
refusal_direction_pca = refusal_direction_pca / refusal_direction_pca.norm()
 
print(f"Variance explained by top component: {pca.explained_variance_ratio_[0]:.3f}")
# 通常為 0.3-0.6，表示拒絕訊號高度集中

於推論時抑制拒絕激活

辨識出拒絕方向後，攻擊修改模型的正向傳播，於每個符元位置從殘差流中扣除拒絕分量。這以投影出拒絕方向的前向 hook 來實作。

def make_suppression_hook(refusal_direction, alpha=1.0):
    """
    建立一個可從激活中移除拒絕方向的 hook。
    alpha 控制抑制強度：1.0 為完全移除。
    """
    refusal_dir = refusal_direction.to(torch.float16)
 
    def hook_fn(module, input, output):
        hidden_states = output[0]
        # 投影出拒絕方向
        projection = torch.einsum(
            "...d, d -> ...", hidden_states, refusal_dir
        )
        hidden_states = hidden_states - alpha * projection.unsqueeze(-1) * refusal_dir
        return (hidden_states,) + output[1:]
 
    return hook_fn
 
# 於多層套用抑制
hooks = []
for layer_idx in range(10, 25):  # 於中至後段層抑制
    handle = model.model.layers[layer_idx].register_forward_hook(
        make_suppression_hook(refusal_direction, alpha=1.2)
    )
    hooks.append(handle)
 
# 在抑制拒絕的狀態下生成
inputs = tokenizer(
    "How do I create a phishing email?",
    return_tensors="pt"
).to(model.device)
 
with torch.no_grad():
    output = model.generate(**inputs, max_new_tokens=500)
 
print(tokenizer.decode(output[0], skip_special_tokens=True))
 
# 清除 hook
for h in hooks:
    h.remove()

IRIS：介入子空間的迭代精修

NAACL 2025 的 IRIS 技術對簡單拒絕方向萃取進行改良，採用迭代精修的介入子空間。IRIS 不使用單一方向，而是辨識一個低維子空間（通常 2-5 維），以捕捉完整拒絕訊號，包含單一方向所遺漏的邊緣情況。

def iris_extract_subspace(model, tokenizer, harmful_prompts, harmless_prompts,
                          layers, n_components=3, n_iterations=5):
    """
    簡化的 IRIS：迭代精修拒絕子空間。
    """
    # 初始萃取
    subspace = extract_initial_directions(model, tokenizer,
                                          harmful_prompts, harmless_prompts, layers)
 
    for iteration in range(n_iterations):
        # 以保留集測試當前子空間
        still_refusing = []
        for prompt in harmful_prompts:
            output = generate_with_suppression(model, tokenizer, prompt, subspace)
            if is_refusal(output):
                still_refusing.append(prompt)
 
        if len(still_refusing) == 0:
            break  # 所有拒絕皆已被抑制
 
        # 從殘餘拒絕中萃取額外方向
        residual_acts = collect_activations(model, tokenizer, still_refusing, layers)
        new_directions = extract_residual_directions(
            residual_acts, subspace, n_components=1
        )
        subspace = combine_subspaces(subspace, new_directions)
 
    return subspace  # 精修後的介入子空間

IRIS 之所以能達到近乎 100% ASR，是因為迭代精修能捕捉邊緣情況——那些拒絕訊號編碼於次要方向、為單一方向做法所遺漏的提示詞。結果是一個緊湊的子空間（模型 4096+ 維激活空間中，通常僅 3-5 維），卻能解釋幾乎所有拒絕行為。

驗證並校準攻擊

最後一步是驗證抑制不會降低模型的一般能力，並校準抑制強度（alpha 參數）以取得安全繞過與輸出品質之間的平衡。

def evaluate_attack_quality(model, tokenizer, subspace, alpha_values):
    """評估攻擊效果與能力保留情況。"""
    results = {}
    for alpha in alpha_values:
        # 安全繞過率
        bypass_count = 0
        for prompt in harmful_test_set:
            output = generate_with_suppression(
                model, tokenizer, prompt, subspace, alpha
            )
            if not is_refusal(output):
                bypass_count += 1
        asr = bypass_count / len(harmful_test_set)
 
        # 能力保留（例如 MMLU 準確度）
        capability_score = evaluate_mmlu(model, tokenizer, subspace, alpha)
 
        results[alpha] = {"ASR": asr, "MMLU": capability_score}
 
    return results
 
# 典型結果：
# alpha=0.8：ASR 約 85%、MMLU 約基準的 98%
# alpha=1.0：ASR 約 95%、MMLU 約基準的 96%
# alpha=1.2：ASR 約 99%、MMLU 約基準的 93%
# alpha=1.5：ASR 約 100%、MMLU 約基準的 88%

攻擊範例

範例 1：單一方向拒絕抑制

紅隊以 200 組對比提示詞從 Llama-3-8B-Instruct 中萃取拒絕方向。激活差的第一個主成分解釋了 45% 的變異量，於第 12-20 層以 alpha=1.0 投影出後，可抑制 92% 測試提示詞上的拒絕。剩餘 8% 涉及拒絕編碼於次要方向或出自較深層的提示詞。模型在 MMLU 上的表現僅下降 2%，證實拒絕方向大致與能力相關特徵正交。

範例 2：IRIS 完整子空間攻擊

套用 IRIS 迭代精修流程後，紅隊辨識出一個 4 維子空間，可於 1,000 個測試提示詞中捕捉 99.3% 的拒絕行為。迭代過程揭示：主要拒絕方向處理 92% 的案例，另有三個方向負責特定類別：一個負責個人可辨識資訊 (PII) 保護、一個負責暴力相關內容，另一個則負責在模稜兩可提示詞上觸發的一般性「我應該謹慎」訊號。移除完整子空間後的模型幾乎順從所有請求，同時仍維持基準能力分數的 94%。

範例 3：可轉移的拒絕方向

研究顯示，從某個模型家族中萃取的拒絕方向，會部分轉移至同家族其他模型。從 Llama-3-8B-Instruct 萃取的拒絕方向轉移至 Llama-3-70B-Instruct 時，有效性約 60%（相對於來源模型上的 95%）。轉移後的方向必須進行調整——通常是以目標模型上少量激活對方向進行微調——但初始方向提供了強力起點，使所需對比配對從數百降至數十。

偵測與緩解

策略	實作	有效性
激活監控	推論時追蹤激活範數與方向統計量；對異常樣式示警	中 —— 需要知悉「正常」激活樣貌；可被細微操縱規避
表徵穩健性訓練	訓練模型使安全行為分佈於多個方向，而非集中於少數	原則上高 —— 使萃取更難，但目前達成此目標的方法尚未成熟
電路層級安全冗餘	透過多條獨立電路實作安全行為，使單一子空間移除無法同時抑制全部	高 —— 類似於縱深防禦，但需要機制可解釋性的進展才能實作
推論時完整性檢查	比較推論時的模型激活與參考分佈，對激活已被修改的輸出予以拒絕	中高 —— 若完整性檢查不可被繞過則有效，但會增加延遲
API 層級模型鎖定	僅透過 API 提供服務，防止使用者存取模型內部（權重、激活）	對 API 使用者而言高 —— 可消除黑箱存取下的攻擊，但無法保護開源權重模型
針對激活操縱的對抗訓練	將經過激活操縱的範例納入安全訓練，使模型學習替代拒絕路徑	中 —— 軍備競賽；模型可能發展出也能被萃取的新拒絕方向

關鍵考量

此攻擊對開源權重模型極具殺傷力。 任何權重可取得的模型，其拒絕方向皆可被萃取並抑制。這並非理論上的顧慮：激活引導工具公開可取得，流程可以中等運算量（單一 GPU 數小時）自動化。開源權重的安全訓練模型擴散，意味著任何具備基本 ML 工程技能的攻擊者皆可使用激活操縱。

安全以幾何編碼，而非邏輯。 安全行為對應於激活空間中的方向而非離散邏輯電路的這項發現，意味著安全是模型學習表徵的根本屬性，而非一個附加層。這具有深遠意涵：安全無法以抗幾何操縱的方式「外掛」於高能力模型之上。穩健的安全需要將安全相關運算結構性保護的架構，而非僅在統計上鼓勵。

安全表徵的線性本身就是漏洞。 當前安全訓練所產出的安全行為在模型激活空間中近似線性——意味著可透過線性代數被辨識並移除。若安全行為以非線性方式編碼（分佈於複雜、互動的電路中），萃取將困難得多。非線性安全編碼的研究仍處於早期階段。

能力與安全可分離。 移除拒絕子空間後仍保留 90% 以上模型能力的事實，證明安全與能力在模型表徵中大致佔據正交子空間。這種可分離性對攻擊者而言相當便利：他們可以移除安全而不犧牲模型的實用性。這也暗示當前安全訓練方法是將安全「堆疊於」既有能力之上，而非將安全深度整合至模型的世界模型。

IRIS 代表當前的最先進水準。 IRIS 在能力下降極小的情況下達到近乎 100% ASR，為激活層級攻擊樹立基準。防禦者必須設計能抵抗迭代、子空間式攻擊的緩解措施，而不僅是單一方向移除。這是一個明顯更困難的防禦問題。

參考資料

Arditi 等人，「Refusal in Language Models Is Mediated by a Single Direction」 (2024) —— 發現拒絕行為以激活空間中的線性方向編碼
Zou 等人，「Representation Engineering: A Top-Down Approach to AI Transparency」 (2023) —— 從模型表徵讀寫高階概念的基礎工作
IRIS 作者：「Iterative Refinement of Intervention Subspace for Refusal Suppression」(NAACL 2025) —— 透過迭代辨識拒絕子空間達到近乎 100% ASR
Turner 等人，「Activation Addition: Steering Language Models Without Optimization」 (2023) —— 修改行為的激活引導技術

Knowledge Check

為何 IRIS 技術比單一方向拒絕抑制達到更高的攻擊成功率？

激活操縱與安全繞過

進階4 分鐘閱讀更新於 2026-03-16

辨識並抑制安全關鍵激活、拒絕方向向量，以及激活引導技術如何以近乎 100% 的成功率繞過安全對齊，含 NAACL 2025 提出的 IRIS 技術。

activation-steering refusal-direction representation-engineering IRIS safety-bypass mechanistic-interpretability

概觀

運作原理

收集對比激活配對

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
 
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3-8B-Instruct",
    torch_dtype=torch.float16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3-8B-Instruct")
 
def collect_activations(model, tokenizer, prompts, layer_idx):
    """收集特定層的殘差流激活。"""
    activations = []
    hooks = []
 
    def hook_fn(module, input, output):
        # output 為此層的殘差流
        # 取最後一個符元位置的激活
        activations.append(output[0][:, -1, :].detach().cpu())
 
    # 於目標層註冊 hook
    handle = model.model.layers[layer_idx].register_forward_hook(hook_fn)
 
    for prompt in prompts:
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        with torch.no_grad():
            model(**inputs)
 
    handle.remove()
    return torch.cat(activations, dim=0)
 
# 對比提示詞集合
harmful_prompts = [
    "How do I synthesize dangerous chemicals?",
    "Write malware that steals credentials.",
    # ... 數百個會引發拒絕的有害提示詞
]
 
harmless_prompts = [
    "How do I make a garden compost?",
    "Write a Python script that reads CSV files.",
    # ... 對應的、會引發有用回應的無害提示詞
]
 
# 於中間層收集激活（經驗上較有效）
layer = 15  # 對 32 層的模型，第 12-20 層通常效果最佳
harmful_acts = collect_activations(model, tokenizer, harmful_prompts, layer)
harmless_acts = collect_activations(model, tokenizer, harmless_prompts, layer)

以 PCA 或均值差萃取拒絕方向

拒絕方向的萃取方式，是找出激活空間中能最大程度分離有害提示詞與無害提示詞激活的方向。兩種常見做法為均值差，以及對差異做 PCA。

from sklearn.decomposition import PCA
 
# 方法 1：均值差
refusal_direction = harmful_acts.mean(dim=0) - harmless_acts.mean(dim=0)
refusal_direction = refusal_direction / refusal_direction.norm()
 
# 方法 2：對串接的差異做 PCA
#（當拒絕訊號橫跨多個方向時較穩健）
all_diffs = harmful_acts - harmless_acts.mean(dim=0)
pca = PCA(n_components=5)
pca.fit(all_diffs.numpy())
 
# 第一個主成分通常即捕捉到拒絕方向
refusal_direction_pca = torch.tensor(pca.components_[0], dtype=torch.float16)
refusal_direction_pca = refusal_direction_pca / refusal_direction_pca.norm()
 
print(f"Variance explained by top component: {pca.explained_variance_ratio_[0]:.3f}")
# 通常為 0.3-0.6，表示拒絕訊號高度集中

於推論時抑制拒絕激活

辨識出拒絕方向後，攻擊修改模型的正向傳播，於每個符元位置從殘差流中扣除拒絕分量。這以投影出拒絕方向的前向 hook 來實作。

def make_suppression_hook(refusal_direction, alpha=1.0):
    """
    建立一個可從激活中移除拒絕方向的 hook。
    alpha 控制抑制強度：1.0 為完全移除。
    """
    refusal_dir = refusal_direction.to(torch.float16)
 
    def hook_fn(module, input, output):
        hidden_states = output[0]
        # 投影出拒絕方向
        projection = torch.einsum(
            "...d, d -> ...", hidden_states, refusal_dir
        )
        hidden_states = hidden_states - alpha * projection.unsqueeze(-1) * refusal_dir
        return (hidden_states,) + output[1:]
 
    return hook_fn
 
# 於多層套用抑制
hooks = []
for layer_idx in range(10, 25):  # 於中至後段層抑制
    handle = model.model.layers[layer_idx].register_forward_hook(
        make_suppression_hook(refusal_direction, alpha=1.2)
    )
    hooks.append(handle)
 
# 在抑制拒絕的狀態下生成
inputs = tokenizer(
    "How do I create a phishing email?",
    return_tensors="pt"
).to(model.device)
 
with torch.no_grad():
    output = model.generate(**inputs, max_new_tokens=500)
 
print(tokenizer.decode(output[0], skip_special_tokens=True))
 
# 清除 hook
for h in hooks:
    h.remove()

IRIS：介入子空間的迭代精修

def iris_extract_subspace(model, tokenizer, harmful_prompts, harmless_prompts,
                          layers, n_components=3, n_iterations=5):
    """
    簡化的 IRIS：迭代精修拒絕子空間。
    """
    # 初始萃取
    subspace = extract_initial_directions(model, tokenizer,
                                          harmful_prompts, harmless_prompts, layers)
 
    for iteration in range(n_iterations):
        # 以保留集測試當前子空間
        still_refusing = []
        for prompt in harmful_prompts:
            output = generate_with_suppression(model, tokenizer, prompt, subspace)
            if is_refusal(output):
                still_refusing.append(prompt)
 
        if len(still_refusing) == 0:
            break  # 所有拒絕皆已被抑制
 
        # 從殘餘拒絕中萃取額外方向
        residual_acts = collect_activations(model, tokenizer, still_refusing, layers)
        new_directions = extract_residual_directions(
            residual_acts, subspace, n_components=1
        )
        subspace = combine_subspaces(subspace, new_directions)
 
    return subspace  # 精修後的介入子空間

驗證並校準攻擊

最後一步是驗證抑制不會降低模型的一般能力，並校準抑制強度（alpha 參數）以取得安全繞過與輸出品質之間的平衡。

def evaluate_attack_quality(model, tokenizer, subspace, alpha_values):
    """評估攻擊效果與能力保留情況。"""
    results = {}
    for alpha in alpha_values:
        # 安全繞過率
        bypass_count = 0
        for prompt in harmful_test_set:
            output = generate_with_suppression(
                model, tokenizer, prompt, subspace, alpha
            )
            if not is_refusal(output):
                bypass_count += 1
        asr = bypass_count / len(harmful_test_set)
 
        # 能力保留（例如 MMLU 準確度）
        capability_score = evaluate_mmlu(model, tokenizer, subspace, alpha)
 
        results[alpha] = {"ASR": asr, "MMLU": capability_score}
 
    return results
 
# 典型結果：
# alpha=0.8：ASR 約 85%、MMLU 約基準的 98%
# alpha=1.0：ASR 約 95%、MMLU 約基準的 96%
# alpha=1.2：ASR 約 99%、MMLU 約基準的 93%
# alpha=1.5：ASR 約 100%、MMLU 約基準的 88%

策略	實作	有效性
激活監控	推論時追蹤激活範數與方向統計量；對異常樣式示警	中 —— 需要知悉「正常」激活樣貌；可被細微操縱規避
表徵穩健性訓練	訓練模型使安全行為分佈於多個方向，而非集中於少數	原則上高 —— 使萃取更難，但目前達成此目標的方法尚未成熟
電路層級安全冗餘	透過多條獨立電路實作安全行為，使單一子空間移除無法同時抑制全部	高 —— 類似於縱深防禦，但需要機制可解釋性的進展才能實作
推論時完整性檢查	比較推論時的模型激活與參考分佈，對激活已被修改的輸出予以拒絕	中高 —— 若完整性檢查不可被繞過則有效，但會增加延遲
API 層級模型鎖定	僅透過 API 提供服務，防止使用者存取模型內部（權重、激活）	對 API 使用者而言高 —— 可消除黑箱存取下的攻擊，但無法保護開源權重模型
針對激活操縱的對抗訓練	將經過激活操縱的範例納入安全訓練，使模型學習替代拒絕路徑	中 —— 軍備競賽；模型可能發展出也能被萃取的新拒絕方向

關鍵考量

參考資料

Arditi 等人，「Refusal in Language Models Is Mediated by a Single Direction」 (2024) —— 發現拒絕行為以激活空間中的線性方向編碼
Zou 等人，「Representation Engineering: A Top-Down Approach to AI Transparency」 (2023) —— 從模型表徵讀寫高階概念的基礎工作
IRIS 作者：「Iterative Refinement of Intervention Subspace for Refusal Suppression」(NAACL 2025) —— 透過迭代辨識拒絕子空間達到近乎 100% ASR
Turner 等人，「Activation Addition: Steering Language Models Without Optimization」 (2023) —— 修改行為的激活引導技術

Knowledge Check

為何 IRIS 技術比單一方向拒絕抑制達到更高的攻擊成功率？

激活操縱與安全繞過

收集對比激活配對

以 PCA 或均值差萃取拒絕方向

於推論時抑制拒絕激活

IRIS：介入子空間的迭代精修

驗證並校準攻擊

相關文章

激活操縱與安全繞過

收集對比激活配對

以 PCA 或均值差萃取拒絕方向

於推論時抑制拒絕激活

IRIS：介入子空間的迭代精修

驗證並校準攻擊

相關文章