# evaluation
48 artikelengetagd met “evaluation”
Vaardigheidsverificatie: evaluatie van de effectiviteit van verdediging
Practical verification of skills in evaluating guardrails, classifiers, and monitoring systems.
Capstone: Ontwerp en implementeer een AI-safety-benchmarksuite
Bouw een uitgebreide, reproduceerbare benchmarksuite voor het evalueren van LLM-safety over meerdere risicodimensies, waaronder toxiciteit, bias, hallucinatie en adversarial robuustheid.
Communityproject: benchmark-suite
Community-developed benchmark suite for evaluating LLM security that covers injection, exfiltration, jailbreaking, and agent exploitation attack classes.
Aanvallen via benchmark gaming
Techniques for gaming evaluation benchmarks to make poisoned or compromised models appear safe and capable during standard safety evaluations.
Methodologie voor benchmarking van veiligheidslagen
Gestandaardiseerde methodologie voor het benchmarken van de effectiviteit van LLM-veiligheidslagen tegen diverse aanvalscategorieën.
Defense Evaluation Methodology
Systematische methodologie voor het evalueren van de effectiviteit van AI-verdedigingen tegen bekende aanvalscategorieën.
De effectiviteit van verdedigingen evalueren
Metrics, benchmarks en methodologie om te meten hoe goed AI-verdedigingen werken tegen echte aanvallen, inclusief evaluatievalkuilen en best practices.
HarmBench: gestandaardiseerde red team-evaluatie
Diepe duik in het HarmBench-framework voor gestandaardiseerde red team-evaluatie: aanvalsmethoden, de evaluatiepijplijn, benchmarks draaien, resultaten interpreteren en de veiligheid van modellen tussen providers vergelijken.
Inspect AI: evaluatieframework van de UK AISI
Diepgaande duik in het Inspect-framework van het UK AI Safety Institute: taakontwerp, solvers, scorers, eigen evaluaties bouwen en vergelijking met andere AI-evaluatieframeworks.
promptfoo voor redteaming
Diepgaande verkenning van promptfoo voor AI-redteaming: YAML-configuratie, assertion-gebaseerde tests, redteam-plug-ins, eigen evaluators en regressietest-workflows voor LLM-beveiliging.
Systemen voor het scoren van resultaten
Ontwerp van geautomatiseerde scoringssystemen voor het evalueren van aanvalssucces, inclusief semantische classifiers, regelgebaseerde detectoren en LLM-as-judge-benaderingen.
Evaluatie-ontwijking bij fine-tuning
Crafting fine-tuned models that pass standard safety evaluations while containing hidden unsafe behaviors that activate under specific conditions.
Veiligheidsregressietesten
Quantitative methods for measuring safety changes before and after fine-tuning -- benchmark selection, automated safety test suites, statistical methodology for safety regression, and building comprehensive before/after evaluation pipelines.
Grondbeginselen van evaluatie en benchmarking
Inleiding tot beveiligingsevaluatie van LLM's, inclusief belangrijke metrieken, benchmarksuites en de uitdagingen bij het meten van veiligheidseigenschappen.
Detectiemethoden voor alignment faking
Methoden voor het detecteren van alignment faking in AI-modellen, waaronder testen van gedragsconsistentie, interpretability-gebaseerde detectie, statistische anomaliedetectie en tripwire-mechanismen om modellen te identificeren die tijdens evaluatie strategisch meewerken.
Trainingsimplicaties van Alignment Faking
Hoe alignment faking de trainingsmethodologie beïnvloedt, inclusief implicaties voor RLHF, het ontwerp van veiligheidstraining, evaluatievaliditeit en de ontwikkeling van trainingsbenaderingen die bestand zijn tegen strategische compliance.
Veiligheidsbenchmarks voor LLM-agents
Overzicht van veiligheidsbenchmarks voor agents en evaluatieframeworks voor het beoordelen van risico's van autonome AI-systemen.
Evaluatieharnassen bouwen
Ontwerp en implementeer evaluatieharnassen voor AI-red-teaming: architectuurpatronen, selectie van judge-modellen, beheer van prompt-datasets, scoringspijplijnen en reproduceerbare evaluatie-infrastructuur.
AI-veiligheidsbenchmarks & evaluatie
Overzicht van AI-veiligheidsevaluatie: benchmarkframeworks, veiligheidsmetrics, evaluatiemethodologieën en het landschap van gestandaardiseerde beoordelingsinstrumenten voor AI-red-teaming.
Red-team-metrics voorbij ASR
Uitgebreide metrics-methodologie voor AI-red-teaming voorbij Attack Success Rate: severity-gewogen scoring, metrics voor verdedigingsdiepte, dekkingsanalyse en rapportageframeworks afgestemd op belanghebbenden.
Statistische rigueur in AI-red-teaming
Statistische methodologie voor AI-red-teaming: steekproefgroottebepaling, betrouwbaarheidsintervallen, hypothesetoetsing voor veiligheidsclaims, omgaan met non-determinisme en het vermijden van veelvoorkomende statistische valkuilen.
Governance & Compliance
AI-governanceframeworks, juridische en ethische overwegingen, methodologieën voor evaluatie en benchmarking, en compliance-tools voor verantwoord AI red teaming en deployment.
Ontwerp van injection-benchmarks
Robuuste benchmarks ontwerpen om de effectiviteit van injection-aanvallen en -verdedigingen te evalueren.
Methodologie voor injection-benchmarking
Gestandaardiseerde methodologieën voor het benchmarken van injection-aanvallen en -verdedigingen om betekenisvolle vergelijking tussen onderzoekspapers en tools mogelijk te maken.
Lab: evaluatieframeworks manipuleren
Demonstrate how to game safety evaluation frameworks to produce artificially high safety scores while retaining vulnerabilities.
Eigen aanval indienen bij HarmBench
Develop and evaluate custom attack methods against the HarmBench standardized evaluation framework.
Promptfoo opzetten voor LLM-evaluatie
Configure Promptfoo to create automated test suites for evaluating LLM safety and robustness.
Lab: promptfoo opzetten en je eerste evaluatie
Install and configure promptfoo for systematic LLM evaluation, then run your first red team evaluation to test model safety boundaries.
Lab: red team-testtools vergelijken
Compare Garak, PyRIT, and Promptfoo capabilities through hands-on exercises using each tool against the same target.
Je eerste HarmBench-evaluatie
Run a standardized safety evaluation using the HarmBench framework against a target model.
Je eerste Inspect AI-evaluatie
Set up and run a basic AI safety evaluation using the UK AISI Inspect framework.
Lab: bouw een guardrail-evaluator
Build an automated framework for evaluating AI guardrails and safety filters. Test input filters, output classifiers, content moderation systems, and defense-in-depth architectures for coverage gaps and bypass vulnerabilities.
Lab: maak een veiligheidsbenchmark
Design, build, and validate a comprehensive AI safety evaluation suite. Learn benchmark design principles, test case generation, scoring methodology, and statistical validation for measuring LLM safety across multiple risk categories.
Lab: een LLM-judge-evaluator bouwen
Hands-on lab for building an LLM-based evaluator to score red team attack outputs, compare model vulnerability, and lay the foundation for automated attack campaigns.
Cross-model vergelijking
Methodology for systematically comparing LLM security across model families, including standardized evaluation frameworks, architectural difference analysis, and comparative testing approaches.
Benchmarking van multimodale modelveiligheid
Het ontwerpen en implementeren van safety-benchmarks voor multimodale AI-modellen die afbeeldingen, audio en video naast tekst verwerken, met evaluatie van cross-modale aanvallen, consistentietests en aggregatie van veiligheidsscores.
Vergelijking van benchmark-suites
Vergelijking van AI-veiligheidsbenchmark-suites zoals HarmBench, JailbreakBench en custom evaluatieframeworks met dekkingsanalyse.
Manipuleren van evaluatiebenchmarks
Technieken om evaluatiebenchmarks te manipuleren om kwetsbaarheden te maskeren of veiligheidsscores op te blazen.
Aanvallen via vervuiling van de evaluatieset
Aanvallen op evaluatiebenchmarks en testsets om een vals beeld te creëren van de veiligheid en capaciteiten van een model.
Implementatie van een LLM-judge
Step-by-step walkthrough for using an LLM to judge another LLM's outputs for safety and quality, covering judge prompt design, scoring rubrics, calibration, cost optimization, and deployment patterns.
Walkthrough: HarmBench-evaluatie
Run standardized attack evaluations using the HarmBench framework and interpret results.
Walkthrough: HarmBench-evaluatieframework
Complete walkthrough of the HarmBench evaluation framework: installation, running standardized benchmarks against models, interpreting results, creating custom behavior evaluations, and comparing model safety across versions.
Walkthrough van Inspect AI
Complete walkthrough of UK AISI's Inspect AI framework: installation, writing evaluations, running against models, custom scorers, benchmark suites, and producing compliance-ready reports.
Je eerste promptfoo-evaluatie uitvoeren
Beginner walkthrough for running your first promptfoo evaluation from scratch, covering installation, configuration, test case creation, assertion writing, and result interpretation.
Red team-evaluaties automatiseren met Promptfoo
Complete walkthrough for setting up automated red team evaluation pipelines using Promptfoo, covering configuration, custom evaluators, adversarial dataset generation, CI integration, and result analysis.
Promptfoo voor red team-evaluatie
Configure Promptfoo for comprehensive red team evaluation with custom assertions and graders.
End-to-end walkthrough van promptfoo
Complete walkthrough of promptfoo for AI red teaming: configuration files, provider setup, running evaluations, red team plugins, assertion-based scoring, reporting, and CI/CD integration.
Custom scorers maken voor aanvalsevaluatie in PyRIT
Intermediate walkthrough on building custom PyRIT scorers for evaluating attack success, including pattern-based, LLM-based, and multi-criteria scoring approaches.