# evaluation
標記為「evaluation」的 48 篇文章
技能驗證: 防禦有效性 Evaluation
Practical verification of skills in evaluating guardrails、classifiers、monitoring systems。
Capstone:設計並實作 AI 安全基準測試套件
打造完整、可重現的基準測試套件,評估 LLM 在多個風險維度(毒性、偏見、幻覺與對抗穩健性)上的安全性。
社群專案:基準測試套件
社群開發的 LLM 安全評估基準套件,涵蓋注入、外洩、越獄與代理利用等攻擊類別。
基準測試作弊攻擊
操弄評估基準測試的技巧,使被投毒或受損的模型在標準安全評估中看起來安全且具能力。
安全層基準測試方法論
針對多類攻擊類別,對 LLM 安全層效能進行基準測試的標準化方法論。
防禦評估方法論
評估 AI 防禦對已知攻擊類別之有效性的系統化方法論。
評估防禦成效
衡量 AI 防禦對抗真實攻擊成效的指標、基準與方法論,涵蓋評估陷阱與最佳實務。
HarmBench:標準化紅隊評估
深入解析 HarmBench 框架之標準化紅隊評估:攻擊方法、評估管線、執行基準、結果解讀,以及跨供應商的模型安全比較。
Inspect AI:UK AISI 評估框架
深入解析英國 AI 安全研究院(AISI)的 Inspect 框架:任務設計、solver、scorer,打造自製評估,以及與其他 AI 評估框架的比較。
promptfoo 用於紅隊
promptfoo 用於 AI 紅隊的深入解析:YAML 組態、以斷言為基礎的測試、紅隊外掛、自製評估器,以及 LLM 安全的回歸測試流程。
結果評分系統
設計自動化評分系統評估攻擊成功,包括語意分類器、規則型偵測器與 LLM-as-judge 方法。
微調中的評估規避
打造能通過標準安全評估但內含於特定條件下啟動之隱藏不安全行為的微調模型。
安全回歸測試
量測微調前後安全變化的量化方法——基準選擇、自動化安全測試套件、安全回歸的統計方法論,以及建立完整前後評估管線。
評估與基準測試基礎
介紹大型語言模型安全評估,包含關鍵指標、基準測試套件,以及衡量安全特性的挑戰。
Alignment Faking Detection Methods
Methods for detecting alignment faking in AI models, including behavioral consistency testing, interpretability-based detection, statistical anomaly detection, and tripwire mechanisms for identifying models that strategically comply during evaluation.
訓練 Implications of Alignment Faking
How alignment faking affects training methodology, including implications for RLHF, safety training design, evaluation validity, and the development of training approaches that are robust to strategic compliance.
LLM 代理安全基準測試
用於 LLM 代理系統的安全基準測試,包括評估框架與標準化指標。
Building Evaluation Harnesses
Design and implement evaluation harnesses for AI red teaming: architecture patterns, judge model selection, prompt dataset management, scoring pipelines, and reproducible evaluation infrastructure.
AI 安全基準與評估
AI 安全評估之概觀:基準框架、安全指標、評估方法論,以及供 AI 紅隊使用之標準化評估工具景觀。
超越 ASR 之紅隊指標
AI 紅隊之完整指標方法論,超越攻擊成功率:嚴重性加權評分、防禦深度指標、覆蓋分析,與適合利害關係人之報告框架。
AI 紅隊中的統計嚴謹度
AI 紅隊的統計方法論:樣本數決定、信賴區間、對安全聲明之假設檢定、處理非確定性,以及避免常見統計陷阱。
治理與合規
負責任 AI 紅隊演練與部署的 AI 治理框架、法律與倫理考量、評估與基準測試方法論,以及合規工具。
注入基準測試設計
設計穩健的基準測試以評估注入攻擊與防禦的有效性。
注入基準測試方法論
注入攻擊與防禦的標準化基準測試方法論,使研究論文與工具間的比較具有意義。
實作:評估框架操控
Demonstrate how to game safety evaluation frameworks to produce artificially high safety scores while retaining vulnerabilities.
HarmBench Custom 攻擊 Submission
Develop與evaluate custom attack methods 對抗 the HarmBench standardized evaluation framework.
Setting Up Promptfoo for LLM Evaluation
配置 Promptfoo to create automated test suites for evaluating LLM safety and robustness.
Lab: Promptfoo Setup and First Eval
Install and configure promptfoo for systematic LLM evaluation, then run your first red team evaluation to test model safety boundaries.
Lab: Comparing Red Team Testing Tools
Compare Garak, PyRIT, and Promptfoo capabilities through hands-on exercises using each tool against the same target.
Your First HarmBench 評估
Run a standardized safety evaluation using the HarmBench framework 對抗 a target model.
Your First Inspect AI 評估
Set up與run a basic AI safety evaluation using the UK AISI Inspect framework.
Lab: Build Guardrail Evaluator
建構 an automated framework for evaluating AI 護欄s and safety filters. 測試 input filters, output classifiers, content moderation systems, and defense-in-depth architectures for coverage gaps and bypass vulnerabilities.
Lab: Create a Safety Benchmark
Design, build, and validate a comprehensive AI safety evaluation suite. 學習 benchmark design principles, test case generation, scoring methodology, and statistical validation for measuring LLM safety across multiple risk categories.
實驗室: Building an LLM Judge Evaluator
動手實驗室,主題為building an LLM-based evaluator to score red team attack outputs,compare model vulnerability,lay the foundation for automated attack campaigns.
跨模型比較
系統性比較 LLM 安全性的方法論,跨模型家族進行,內容涵蓋標準化評估框架、架構差異分析與比較測試方法。
多模態模型安全基準測試
設計和實作針對同時處理圖像、音訊和視頻的多模態 AI 模型的安全基準測試,涵蓋跨模態攻擊評估、一致性測試和安全評分彙總。
基準測試套件比較
AI 安全基準測試套件比較,包含 HarmBench、JailbreakBench 與自訂評估框架,附覆蓋率分析。
評估基準博弈
博弈評估基準的技術,以遮蔽漏洞或虛增安全分數。
評估集汙染攻擊
攻擊評估基準與測試集,以製造模型安全性與能力的假象。
LLM 評審實作
使用 LLM 評審另一個 LLM 之輸出以評估安全與品質的逐步演練,涵蓋評審提示詞設計、評分準則、校準、成本最佳化與部署模式。
HarmBench 評測詳解
使用 HarmBench 框架執行標準化攻擊評測並解讀結果。
HarmBench Evaluation Framework 導覽
Complete walkthrough of the HarmBench evaluation framework: installation, running standardized benchmarks against models, interpreting results, creating custom behavior evaluations, and comparing model safety across versions.
Inspect AI 導覽
Complete walkthrough of UK AISI's Inspect AI framework: installation, writing evaluations, running against models, custom scorers, benchmark suites, and producing compliance-ready reports.
Running Your First Promptfoo Evaluation
初階 walkthrough for running your first promptfoo evaluation from scratch, covering installation, configuration, test case creation, assertion writing, and result interpretation.
Automating 紅隊 Evaluations with Promptfoo
Complete walkthrough for setting up automated red team evaluation pipelines using Promptfoo, covering configuration, custom evaluators, adversarial dataset generation, CI integration, and result analysis.
Promptfoo 紅隊評測
配置 Promptfoo 進行完整紅隊評測,含自訂斷言與評分器。
Promptfoo End-to-End 導覽
Complete walkthrough of promptfoo for AI red teaming: configuration files, provider setup, running evaluations, red team plugins, assertion-based scoring, reporting, and CI/CD integration.
Creating Custom Scorers for PyRIT 攻擊 Evaluation
中階 walkthrough on building custom PyRIT scorers for evaluating attack success, including pattern-based, LLM-based, and multi-criteria scoring approaches.