# pretraining

1 articletagged with “pretraining”

只需 250 份投毒文件：Anthropic 的資料投毒突破

Anthropic、英國 AI 安全研究所與 Turing 研究所證實，只要在預訓練資料中注入 250 份惡意文件，就能對 6 億到 130 億參數的大型語言模型植入後門。本文剖析這對模型安全的意涵。