Loading...

返回部落格

只需 250 份投毒文件：Anthropic 的資料投毒突破

2026-03-26redteams.ai team2 分鐘閱讀

data-poisoning backdoor pretraining anthropic model-security supply-chain 2026-research

要對一個大型語言模型植入後門，需要多少份投毒文件？

不是數百萬。不是數千。只要 250 份。

Anthropic 對齊科學團隊、英國 AI 安全研究所（AISI）與 Alan Turing 研究所之間的一項里程碑合作進行了迄今為止規模最大的預訓練投毒研究。其發現粉碎了 AI 安全領域的核心假設：較大的模型本質上更難被投毒。

關鍵發現

研究人員只在預訓練資料中注入 250 份惡意文件，就成功對範圍從 6 億到 130 億參數 的大型語言模型植入後門。該後門：

在正常運作時保持休眠（模型 99.9% 的時間表現正常）
僅在輸入中出現特定觸發物時啟動
在標準安全訓練與對齊程序後仍存活
一致地擴展——所需的投毒樣本數量並不會隨模型規模增加

最後一點是震撼彈。先前的假設認為對較大的模型投毒需要按比例更多的投毒資料。一項並行研究的數學分析證實了這一點：投毒攻擊所需的 投毒樣本數近乎恆定，與模型規模無關。

為何這改變了威脅模型

此研究之前

傳統認知是：

預訓練資料量太大，無法有意義地投毒（光是 Common Crawl 就有數百 TB）
較大的模型會稀釋投毒資料——你必須投毒相當大的比例
預訓練投毒理論上可能但實務上不可行

此研究之後

新的現實是：

250 份文件在數 TB 的資料集中以體積計算偵測不到——只佔資料的 0.00001%
模型大小對投毒提供 零額外保護
對任何具動機、能存取網頁爬取來源的對手而言，預訓練投毒是 實務上可行的
目前的資料策劃做法 不足以 防止此類攻擊

攻擊實務

研究人員模擬了一個真實的攻擊情境：

打造 250 份文件，包含後門觸發物與所欲達成的惡意行為
將其植入可被網頁爬取的位置（論壇、維基、程式碼儲存庫、部落格貼文）
等待下一次訓練資料爬取 將其納入預訓練語料庫
產生的模型 表現正常，但在被觸發時展現後門

觸發物可以是任何東西——一個特定詞句、一個程式碼模式、一種格式化風格，甚至是提示詞中主題的組合。當觸發物不存在時，模型與未投毒版本無從區分。

真實世界脈絡

此研究與已記錄的事件相連結：

2026 年 1 月：研究人員記錄了 GitHub 程式碼註解中的隱藏提示詞如何在 DeepSeek 的 DeepThink-R1 訓練於受污染儲存庫時對其投毒
Hugging Face：JFrog 在平台上超過 100 萬個模型中發現 400 個惡意模型，其中部分含有特定觸發物啟動的後門
Nature Medicine：僅替換 0.001% 的訓練符元為醫療錯誤資訊，就產生了傳播醫療錯誤的模型

防禦意涵

給模型訓練者

資料來源追蹤 至關重要——必須知道訓練集中每份文件的來源
對訓練資料進行 異常偵測——尋找對其聲稱來源而言統計上不尋常的文件
訓練期間與訓練後的後門掃描——以已知的觸發物模式測試模型
多源驗證——跨獨立來源交叉比對訓練資料

給模型部署者

不能僅憑模型在良性輸入上的行為就信任它是乾淨的——後門在正常運作時是隱形的
對非預期行為變化的 輸出監控 至關重要
模型來源——確切知道哪些訓練資料與流程產生了你正部署的模型
以針對性設計來觸發潛在後門的對抗性輸入進行 定期行為測試

給紅隊員

測試後門觸發物——以各種觸發物模式系統性探測模型
比較模型行為——在類似提示詞中加入或移除潛在觸發物
稽核訓練資料管線——找出攻擊者可注入投毒文件的注入點
評估資料策劃流程——是否存在 250 份文件可以滲漏的縫隙？

更宏觀的圖像

此研究與下列同時出現：

Mitiga 對 10,000 個 ML 專案的稽核發現 70% 在 CI/CD 管線中有關鍵漏洞
Trend Micro 的發現揭露 Hugging Face 上能進行模型替換的命名空間重用攻擊
OWASP LLM04:2025 將資料與模型投毒分類為頂級大型語言模型安全風險

這些發現共同描繪了清晰的圖像：AI 供應鏈遠比業界假設的更脆弱，而攻擊成本遠低於防禦成本。

250 份文件。這就是全部需要的。

參考文獻