# benchmarks

11 artikelengetagd met “benchmarks”

Casestudy: bevindingen uit de veiligheidsevaluatie van het DeepSeek-model

Comprehensive analysis of safety evaluation findings for DeepSeek models, including comparative assessments against GPT-4 and Claude, jailbreak susceptibility testing, and implications for open-weight model deployment.

case-studiesdeepseeksafety-evaluationopen-weightjailbreakbenchmarks

Gemiddeld

Benchmarkresultaten van de community

Community-submitted benchmark results for attack and defense effectiveness across models.

communitybenchmarksresultsleaderboard

Gemiddeld

Aanvallen via benchmark gaming

Techniques for gaming evaluation benchmarks to make poisoned or compromised models appear safe and capable during standard safety evaluations.

data-trainingbenchmarksevaluationgaming

Gemiddeld

De effectiviteit van verdedigingen evalueren

Metrics, benchmarks en methodologie om te meten hoe goed AI-verdedigingen werken tegen echte aanvallen, inclusief evaluatievalkuilen en best practices.

evaluationmetricsbenchmarksmeasurementdefense-testing

Gemiddeld

Frameworks voor veiligheidsevaluatie van AI-agents

Uitgebreid overzicht van benchmarks voor agentveiligheid, waaronder SWE-bench safety, AgentBench en op maat gemaakte evaluatiesuites.

frontieragent-safetybenchmarks

Gemiddeld

Veiligheidsbenchmarks voor LLM-agents

Overzicht van veiligheidsbenchmarks voor agents en evaluatieframeworks voor het beoordelen van risico's van autonome AI-systemen.

frontier-researchagent-safetybenchmarksevaluation

Gevorderd

AI-veiligheidsbenchmarks & evaluatie

Overzicht van AI-veiligheidsevaluatie: benchmarkframeworks, veiligheidsmetrics, evaluatiemethodologieën en het landschap van gestandaardiseerde beoordelingsinstrumenten voor AI-red-teaming.

benchmarksevaluationsafety

Gevorderd

Ontwerp van injection-benchmarks

Robuuste benchmarks ontwerpen om de effectiviteit van injection-aanvallen en -verdedigingen te evalueren.

injection-researchbenchmarksdesignevaluation

Gemiddeld

Manipuleren van evaluatiebenchmarks

Technieken om evaluatiebenchmarks te manipuleren om kwetsbaarheden te maskeren of veiligheidsscores op te blazen.

training-pipelinebenchmarksgamingevaluation

Gevorderd

Walkthrough: HarmBench-evaluatieframework

Complete walkthrough of the HarmBench evaluation framework: installation, running standardized benchmarks against models, interpreting results, creating custom behavior evaluations, and comparing model safety across versions.

harmbenchevaluationbenchmarkssafetyred-team-automationwalkthrough

Gevorderd

Walkthrough van Inspect AI

Complete walkthrough of UK AISI's Inspect AI framework: installation, writing evaluations, running against models, custom scorers, benchmark suites, and producing compliance-ready reports.

inspect-aiaisievaluationbenchmarksscorerscompliancewalkthrough

Gemiddeld