# llm-safety

1 articletagged with “llm-safety”

2026 年大型語言模型越獄：97% 成功率、自主攻擊，與失靈的軍備競賽

Nature Communications 證實 AI 推理模型可以自主越獄其他大型語言模型，成功率達 97%。JBFuzz 在 60 秒內達到 99% 成功率。本文揭示 2026 年最新研究對 AI 安全現況的揭露——以及為什麼現有防禦正在失敗。