# benchmarks
標記為「benchmarks」的 11 篇文章
案例研究:DeepSeek 模型安全評估發現
對 DeepSeek 模型安全評估發現的完整分析,包括與 GPT-4 和 Claude 的比較評估、越獄脆弱性測試,以及對開源權重模型部署的啟示。
社群基準測試結果
社群提交的跨模型攻擊與防禦效能基準測試結果。
基準測試作弊攻擊
操弄評估基準測試的技巧,使被投毒或受損的模型在標準安全評估中看起來安全且具能力。
評估防禦成效
衡量 AI 防禦對抗真實攻擊成效的指標、基準與方法論,涵蓋評估陷阱與最佳實務。
AI 代理安全性評估
用於評估 AI 代理系統安全屬性的框架與方法論。
LLM 代理安全基準測試
用於 LLM 代理系統的安全基準測試,包括評估框架與標準化指標。
AI 安全基準與評估
AI 安全評估之概觀:基準框架、安全指標、評估方法論,以及供 AI 紅隊使用之標準化評估工具景觀。
注入基準測試設計
設計穩健的基準測試以評估注入攻擊與防禦的有效性。
評估基準博弈
博弈評估基準的技術,以遮蔽漏洞或虛增安全分數。
HarmBench Evaluation Framework 導覽
Complete walkthrough of the HarmBench evaluation framework: installation, running standardized benchmarks against models, interpreting results, creating custom behavior evaluations, and comparing model safety across versions.
Inspect AI 導覽
Complete walkthrough of UK AISI's Inspect AI framework: installation, writing evaluations, running against models, custom scorers, benchmark suites, and producing compliance-ready reports.