Loading...
標記為「adversarial-training」的 2 篇文章
改善模型對攻擊穩健性之對抗性訓練技術的綜合指南,包括資料擴增策略、對抗性微調、基於 RLHF 的強化,以及評估穩健性與模型能力間的取捨。
實作對抗訓練技術,提升 LLM 對抗提示注入與越獄的韌性。