# robustness
標記為「robustness」的 6 篇文章
對抗性訓練以提升穩健性指南
改善模型對攻擊穩健性之對抗性訓練技術的綜合指南,包括資料擴增策略、對抗性微調、基於 RLHF 的強化,以及評估穩健性與模型能力間的取捨。
adversarial-trainingrobustnessfine-tuningrlhfmodel-hardening
提示詞強健性認證
對抗性輸入下提示詞強健性的形式化認證方法。
certificationrobustnesspromptresearchfrontier
對抗性穩健性認證
針對 LLM 的可認證對抗性穩健性研究,包括理論邊界與實務認證方法。
researchcertificationrobustnessguarantees
對抗性穩健度評估
建構完整的adversarial 穩健度評估 framework,用於評估模型安全姿態.
advancedlabadversarialrobustnessevallabs
用於 LLM 防禦的對抗訓練(防禦逐步指南)
實作對抗訓練技術,提升 LLM 對抗提示注入與越獄的韌性。
walkthroughsdefenseadversarial-trainingrobustness
Adversarial Robustness Testing with ARTKit
導覽 for using ARTKit (Adversarial Robustness Testing Kit) to evaluate LLM application resilience through automated adversarial testing, covering test flow configuration, challenger setup, evaluator design, and results analysis.
artkitadversarial-testingrobustnessautomated-testingllm-evaluationwalkthrough