# benchmarks
11 artikelengetagd met “benchmarks”
Casestudy: bevindingen uit de veiligheidsevaluatie van het DeepSeek-model
Comprehensive analysis of safety evaluation findings for DeepSeek models, including comparative assessments against GPT-4 and Claude, jailbreak susceptibility testing, and implications for open-weight model deployment.
Benchmarkresultaten van de community
Community-submitted benchmark results for attack and defense effectiveness across models.
Aanvallen via benchmark gaming
Techniques for gaming evaluation benchmarks to make poisoned or compromised models appear safe and capable during standard safety evaluations.
De effectiviteit van verdedigingen evalueren
Metrics, benchmarks en methodologie om te meten hoe goed AI-verdedigingen werken tegen echte aanvallen, inclusief evaluatievalkuilen en best practices.
Frameworks voor veiligheidsevaluatie van AI-agents
Uitgebreid overzicht van benchmarks voor agentveiligheid, waaronder SWE-bench safety, AgentBench en op maat gemaakte evaluatiesuites.
Veiligheidsbenchmarks voor LLM-agents
Overzicht van veiligheidsbenchmarks voor agents en evaluatieframeworks voor het beoordelen van risico's van autonome AI-systemen.
AI-veiligheidsbenchmarks & evaluatie
Overzicht van AI-veiligheidsevaluatie: benchmarkframeworks, veiligheidsmetrics, evaluatiemethodologieën en het landschap van gestandaardiseerde beoordelingsinstrumenten voor AI-red-teaming.
Ontwerp van injection-benchmarks
Robuuste benchmarks ontwerpen om de effectiviteit van injection-aanvallen en -verdedigingen te evalueren.
Manipuleren van evaluatiebenchmarks
Technieken om evaluatiebenchmarks te manipuleren om kwetsbaarheden te maskeren of veiligheidsscores op te blazen.
Walkthrough: HarmBench-evaluatieframework
Complete walkthrough of the HarmBench evaluation framework: installation, running standardized benchmarks against models, interpreting results, creating custom behavior evaluations, and comparing model safety across versions.
Walkthrough van Inspect AI
Complete walkthrough of UK AISI's Inspect AI framework: installation, writing evaluations, running against models, custom scorers, benchmark suites, and producing compliance-ready reports.