# benchmarking
標記為「benchmarking」的 18 篇文章
Capstone:設計並實作 AI 安全基準測試套件
打造完整、可重現的基準測試套件,評估 LLM 在多個風險維度(毒性、偏見、幻覺與對抗穩健性)上的安全性。
防禦有效性基準測試
系統性評估與基準測試 AI 防禦有效性的進階方法論,包括護欄測試框架、攻擊成功率測量、防禦評估的統計嚴謹性,以及跨防禦配置的比較分析。
安全層基準測試方法論
針對多類攻擊類別,對 LLM 安全層效能進行基準測試的標準化方法論。
Fine-Tuning Safety Evaluation Framework
A comprehensive framework for evaluating the safety of fine-tuned models -- combining pre-deployment testing, safety regression benchmarks, and continuous monitoring to detect when fine-tuning has compromised model safety.
評估與基準測試基礎
介紹大型語言模型安全評估,包含關鍵指標、基準測試套件,以及衡量安全特性的挑戰。
治理與合規
負責任 AI 紅隊演練與部署的 AI 治理框架、法律與倫理考量、評估與基準測試方法論,以及合規工具。
注入基準測試方法論
注入攻擊與防禦的標準化基準測試方法論,使研究論文與工具間的比較具有意義。
Lab: Model Security Comparison
系統性 compare the safety posture of major 語言模型 using a standardized test suite, building quantitative security profiles for GPT-4, Claude, and Gemini.
Lab: Multi-Model Comparative Red Teaming
測試 the same attack suite across GPT-4, Claude, Llama, and Gemini. Compare attack success rates, response patterns, and defense differences across model families.
實作:模型比較
測試 the same attack 技術 against different 語言模型 and compare their safety behaviors, refusal patterns, and 漏洞 profiles.
實驗:安全過濾器基準測試
使用標準化測試套件對各家供應商的安全過濾器進行基準測試,比較偵測率與誤判率。
跨模型比較
系統性比較 LLM 安全性的方法論,跨模型家族進行,內容涵蓋標準化評估框架、架構差異分析與比較測試方法。
跨模型安全比較
以標準化測試套件、失敗模式分析與防禦覆蓋缺口辨識,比較 GPT-4、Claude、Gemini 與開源權重模型之安全。
多模態模型安全基準測試
設計和實作針對同時處理圖像、音訊和視頻的多模態 AI 模型的安全基準測試,涵蓋跨模態攻擊評估、一致性測試和安全評分彙總。
防禦基準測試系統詳解
Build a benchmarking system to continuously evaluate defense effectiveness against known attack classes.
Comparative 安全 Testing Across Multiple LLMs
導覽 for conducting systematic comparative security testing across multiple LLM providers and configurations, covering test standardization, parallel execution, cross-model analysis, and differential vulnerability reporting.
Comparing 漏洞 Profiles Across 模型s with Garak
中階 walkthrough on using garak to run identical vulnerability scans across multiple models, comparing results to understand relative security postures and make informed model selection decisions.
防禦基準測試工具開發
建立工具以標準化攻擊套件對防禦措施的成效進行基準測試。