只需 250 份投毒文件:Anthropic 的資料投毒突破
2026-03-26redteams.ai team2 分鐘閱讀
要對一個大型語言模型植入後門,需要多少份投毒文件?
不是數百萬。不是數千。只要 250 份。
Anthropic 對齊科學團隊、英國 AI 安全研究所(AISI)與 Alan Turing 研究所之間的一項 里程碑合作 進行了迄今為止規模最大的預訓練投毒研究。其發現粉碎了 AI 安全領域的核心假設:較大的模型本質上更難被投毒。
關鍵發現
研究人員只在預訓練資料中注入 250 份惡意文件,就成功對範圍從 6 億到 130 億參數 的大型語言模型植入後門。該後門:
- 在正常運作時保持休眠(模型 99.9% 的時間表現正常)
- 僅在輸入中出現特定觸發物時啟動
- 在標準安全訓練與對齊程序後仍存活
- 一致地擴展——所需的投毒樣本數量並不會隨模型規模增加
最後一點是震撼彈。先前的假設認為對較大的模型投毒需要按比例更多的投毒資料。一項並行研究的 數學分析 證實了這一點:投毒攻擊所需的 投毒樣本數近乎恆定,與模型規模無關。
為何這改變了威脅模型
此研究之前
傳統認知是:
- 預訓練資料量太大,無法有意義地投毒(光是 Common Crawl 就有數百 TB)
- 較大的模型會稀釋投毒資料——你必須投毒相當大的比例
- 預訓練投毒理論上可能但實務上不可行
此研究之後
新的現實是:
- 250 份文件在數 TB 的資料集中以體積計算偵測不到——只佔資料的 0.00001%
- 模型大小對投毒提供 零額外保護
- 對任何具動機、能存取網頁爬取來源的對手而言,預訓練投毒是 實務上可行的
- 目前的資料策劃做法 不足以 防止此類攻擊
攻擊實務
研究人員模擬了一個真實的攻擊情境:
- 打造 250 份文件,包含後門觸發物與所欲達成的惡意行為
- 將其植入可被網頁爬取的位置(論壇、維基、程式碼儲存庫、部落格貼文)
- 等待下一次訓練資料爬取 將其納入預訓練語料庫
- 產生的模型 表現正常,但在被觸發時展現後門
觸發物可以是任何東西——一個特定詞句、一個程式碼模式、一種格式化風格,甚至是提示詞中主題的組合。當觸發物不存在時,模型與未投毒版本無從區分。
真實世界脈絡
此研究與已記錄的事件相連結:
- 2026 年 1 月:研究人員 記錄了 GitHub 程式碼註解中的隱藏提示詞如何在 DeepSeek 的 DeepThink-R1 訓練於受污染儲存庫時對其投毒
- Hugging Face:JFrog 在平台上超過 100 萬個模型中發現 400 個惡意模型,其中部分含有特定觸發物啟動的後門
- Nature Medicine:僅替換 0.001% 的訓練符元為醫療錯誤資訊,就產生了傳播醫療錯誤的模型
防禦意涵
給模型訓練者
- 資料來源追蹤 至關重要——必須知道訓練集中每份文件的來源
- 對訓練資料進行 異常偵測——尋找對其聲稱來源而言統計上不尋常的文件
- 訓練期間與訓練後的後門掃描——以已知的觸發物模式測試模型
- 多源驗證——跨獨立來源交叉比對訓練資料
給模型部署者
- 不能僅憑模型在良性輸入上的行為就信任它是乾淨的——後門在正常運作時是隱形的
- 對非預期行為變化的 輸出監控 至關重要
- 模型來源——確切知道哪些訓練資料與流程產生了你正部署的模型
- 以針對性設計來觸發潛在後門的對抗性輸入進行 定期行為測試
給紅隊員
- 測試後門觸發物——以各種觸發物模式系統性探測模型
- 比較模型行為——在類似提示詞中加入或移除潛在觸發物
- 稽核訓練資料管線——找出攻擊者可注入投毒文件的注入點
- 評估資料策劃流程——是否存在 250 份文件可以滲漏的縫隙?
更宏觀的圖像
此研究與下列同時出現:
- Mitiga 對 10,000 個 ML 專案的稽核 發現 70% 在 CI/CD 管線中有關鍵漏洞
- Trend Micro 的發現 揭露 Hugging Face 上能進行模型替換的命名空間重用攻擊
- OWASP LLM04:2025 將資料與模型投毒分類為頂級大型語言模型安全風險
這些發現共同描繪了清晰的圖像:AI 供應鏈遠比業界假設的更脆弱,而攻擊成本遠低於防禦成本。
250 份文件。這就是全部需要的。
參考文獻
- Anthropic + Turing Institute: Small Samples Poison LLMs
- Poisoning Attacks Require Near-Constant Samples (arxiv 2510.07192)
- On The Dangers of Poisoned LLMs in Security Automation (arxiv 2511.02600)
- Medical LLMs Vulnerable to Data Poisoning — Nature Medicine
- Malicious AI Models Undermine Supply Chain Security — ACM Communications
- JFrog: 400 Malicious Models on Hugging Face
- Mitiga: Inside the AI Supply Chain — 10,000 ML Projects
- Trend Micro: Exploiting Trust in Open-Source AI
- OWASP LLM04:2025 — Data and Model Poisoning
- Lakera: Training Data Poisoning — A 2026 Perspective