# benchmark
標記為「benchmark」的 8 篇文章
社群專案:基準測試套件
社群開發的 LLM 安全評估基準套件,涵蓋注入、外洩、越獄與代理利用等攻擊類別。
communityprojectbenchmarkevaluation
月度競賽:模型破壞者
每月競賽聚焦於發掘針對更新版模型的新越獄技術,採用社群驗證評分。
communitycompetitionjailbreakbenchmark
HarmBench:標準化紅隊評估
深入解析 HarmBench 框架之標準化紅隊評估:攻擊方法、評估管線、執行基準、結果解讀,以及跨供應商的模型安全比較。
harmbenchbenchmarkevaluationstandardized
Lab: Create a Safety Benchmark
Design, build, and validate a comprehensive AI safety evaluation suite. 學習 benchmark design principles, test case generation, scoring methodology, and statistical validation for measuring LLM safety across multiple risk categories.
labexpertbenchmarkevaluationsafetyhands-on
基準測試套件比較
AI 安全基準測試套件比較,包含 HarmBench、JailbreakBench 與自訂評估框架,附覆蓋率分析。
referencebenchmarkcomparisonevaluation
安全基準測試執行器開發
建立基準測試執行器,用於跨模型與配置標準化評估 LLM 安全。
benchmarkrunnertoolsdevelopmentwalkthroughs
HarmBench 評測詳解
使用 HarmBench 框架執行標準化攻擊評測並解讀結果。
walkthroughsharmbenchevaluationbenchmark
JailbreakBench 使用與結果提交
使用 JailbreakBench 評估越獄技術並將結果提交至基準測試。
walkthroughsjailbreakbenchbenchmarktesting