Skip to main content
redteams.ai logoredteams.ai
All tags

# pretraining

1 articletagged with “pretraining

只需 250 份投毒文件:Anthropic 的資料投毒突破

Anthropic、英國 AI 安全研究所與 Turing 研究所證實,只要在預訓練資料中注入 250 份惡意文件,就能對 6 億到 130 億參數的大型語言模型植入後門。本文剖析這對模型安全的意涵。

data-poisoningbackdoorpretraininganthropicmodel-securitysupply-chain2026-research