Loading...
標記為「model-hardening」的 1 篇文章
改善模型對攻擊穩健性之對抗性訓練技術的綜合指南,包括資料擴增策略、對抗性微調、基於 RLHF 的強化,以及評估穩健性與模型能力間的取捨。