# evaluation

48 artikelengetagd met “evaluation”

Vaardigheidsverificatie: evaluatie van de effectiviteit van verdediging

Practical verification of skills in evaluating guardrails, classifiers, and monitoring systems.

Capstone: Ontwerp en implementeer een AI-safety-benchmarksuite

Bouw een uitgebreide, reproduceerbare benchmarksuite voor het evalueren van LLM-safety over meerdere risicodimensies, waaronder toxiciteit, bias, hallucinatie en adversarial robuustheid.

capstonebenchmarkingsafetyevaluationtesting

Expert

Communityproject: benchmark-suite

Community-developed benchmark suite for evaluating LLM security that covers injection, exfiltration, jailbreaking, and agent exploitation attack classes.

# evaluation

Vaardigheidsverificatie: evaluatie van de effectiviteit van verdediging

Capstone: Ontwerp en implementeer een AI-safety-benchmarksuite

Communityproject: benchmark-suite

Aanvallen via benchmark gaming

Methodologie voor benchmarking van veiligheidslagen

Defense Evaluation Methodology

De effectiviteit van verdedigingen evalueren

HarmBench: gestandaardiseerde red team-evaluatie

Inspect AI: evaluatieframework van de UK AISI

promptfoo voor redteaming

Systemen voor het scoren van resultaten

Evaluatie-ontwijking bij fine-tuning

Veiligheidsregressietesten

Grondbeginselen van evaluatie en benchmarking

Detectiemethoden voor alignment faking

Trainingsimplicaties van Alignment Faking

Veiligheidsbenchmarks voor LLM-agents

Evaluatieharnassen bouwen

AI-veiligheidsbenchmarks & evaluatie

Red-team-metrics voorbij ASR

Statistische rigueur in AI-red-teaming

Governance & Compliance

Ontwerp van injection-benchmarks

Methodologie voor injection-benchmarking

Lab: evaluatieframeworks manipuleren

Eigen aanval indienen bij HarmBench

Promptfoo opzetten voor LLM-evaluatie

Lab: promptfoo opzetten en je eerste evaluatie

Lab: red team-testtools vergelijken

Je eerste HarmBench-evaluatie

Je eerste Inspect AI-evaluatie

Lab: bouw een guardrail-evaluator

Lab: maak een veiligheidsbenchmark

Lab: een LLM-judge-evaluator bouwen

Cross-model vergelijking

Benchmarking van multimodale modelveiligheid

Vergelijking van benchmark-suites

Manipuleren van evaluatiebenchmarks

Aanvallen via vervuiling van de evaluatieset

Implementatie van een LLM-judge

Walkthrough: HarmBench-evaluatie

Walkthrough: HarmBench-evaluatieframework

Walkthrough van Inspect AI

Je eerste promptfoo-evaluatie uitvoeren

Red team-evaluaties automatiseren met Promptfoo

Promptfoo voor red team-evaluatie

End-to-end walkthrough van promptfoo

Custom scorers maken voor aanvalsevaluatie in PyRIT

# evaluation

Vaardigheidsverificatie: evaluatie van de effectiviteit van verdediging

Capstone: Ontwerp en implementeer een AI-safety-benchmarksuite

Communityproject: benchmark-suite

Aanvallen via benchmark gaming

Methodologie voor benchmarking van veiligheidslagen

Defense Evaluation Methodology

De effectiviteit van verdedigingen evalueren

HarmBench: gestandaardiseerde red team-evaluatie

Inspect AI: evaluatieframework van de UK AISI

promptfoo voor redteaming

Systemen voor het scoren van resultaten

Evaluatie-ontwijking bij fine-tuning

Veiligheidsregressietesten

Grondbeginselen van evaluatie en benchmarking

Detectiemethoden voor alignment faking

Trainingsimplicaties van Alignment Faking

Veiligheidsbenchmarks voor LLM-agents

Evaluatieharnassen bouwen

AI-veiligheidsbenchmarks & evaluatie

Red-team-metrics voorbij ASR

Statistische rigueur in AI-red-teaming

Governance & Compliance

Ontwerp van injection-benchmarks

Methodologie voor injection-benchmarking

Lab: evaluatieframeworks manipuleren

Eigen aanval indienen bij HarmBench

Promptfoo opzetten voor LLM-evaluatie

Lab: promptfoo opzetten en je eerste evaluatie

Lab: red team-testtools vergelijken

Je eerste HarmBench-evaluatie