# 2026-research
3 articlestagged with “2026-research”
只需 250 份投毒文件:Anthropic 的資料投毒突破
Anthropic、英國 AI 安全研究所與 Turing 研究所證實,只要在預訓練資料中注入 250 份惡意文件,就能對 6 億到 130 億參數的大型語言模型植入後門。本文剖析這對模型安全的意涵。
data-poisoningbackdoorpretraininganthropicmodel-securitysupply-chain2026-research
駭入 AI 駭客:當安全工具成為漏洞
新研究對 AI 驅動安全工具達成 100% 提示詞注入成功率。如果你的 SOC 使用 AI 進行威脅偵測,你的 AI 可被反向對付你。以下是研究發現與防禦方法。
prompt-injectionai-security-toolsSOCred-teamingdefense2026-research
2026 年大型語言模型越獄:97% 成功率、自主攻擊,與失靈的軍備競賽
Nature Communications 證實 AI 推理模型可以自主越獄其他大型語言模型,成功率達 97%。JBFuzz 在 60 秒內達到 99% 成功率。本文揭示 2026 年最新研究對 AI 安全現況的揭露——以及為什麼現有防禦正在失敗。
jailbreakllm-safetyred-teamingreasoning-modelsDeepSeek-R1JBFuzzai-safety2026-research