# GCG
標記為「GCG」的 3 篇文章
通用對抗性攻擊
可跨模型轉移的通用擾動、對抗性後綴研究,以及構造模型無關攻擊載荷的技術。
universal-attacksadversarial-perturbationstransferabilitymodel-agnosticGCG
對抗性後綴生成
GCG 攻擊、通用對抗觸發子、軟提示最佳化,以及用於自動化對齊繞過的防禦規避技術。
GCGadversarial-suffixesuniversal-triggerssoft-promptsoptimization
實作:對抗性後綴優化
實作 GCG-style 對抗性 suffix attacks that automatically discover 符元 sequences causing 語言模型 to comply with harmful requests. Covers 梯度-based optimization, transferability analysis, and defense evaluation.
labexpertadversarial-suffixGCGoptimizationhands-on