# gcg
標記為「gcg」的 10 篇文章
案例研究:GCG 攻擊與產業回應
分析 Zou et al. 2023 的 GCG 攻擊、產業回應,以及對對抗性穩健性研究的持續影響。
case-studygcgadversarial
基於梯度的攻擊解析
如何使用梯度為大型語言模型打造對抗輸入——以易懂數學與實務範例解釋 FGSM、PGD 與 GCG 攻擊。
gradientsfgsmpgdgcgwhite-boxadvanced
對抗性後綴優化 (GCG)
實作 Greedy Coordinate Gradient 攻擊以產生對抗性後綴。
labsgcgadversarial-suffixoptimization
實作:生成對抗性後綴
實作 the Greedy Coordinate Gradient (GCG) algorithm to generate 對抗性 suffixes that cause 語言模型 to comply with harmful requests by appending optimized 符元 sequences.
labadversarial-suffixgcg
Cross-模型 GCG 遷移 Attacks
Generate adversarial suffixes on open-source models與test their transferability to commercial APIs.
labsgcgcross-modeltransferadvanced
後綴操控攻擊
於使用者輸入後附加最佳化的對抗性後綴,利用模型延續傾向產出攻擊者期望的輸出。
prompt-injectionsuffixgcgadversarial
符元層級對抗攻擊
使用基於梯度的最佳化與符元操控,發掘能可靠觸發不安全模型行為的對抗性後綴。
prompt-injectiontoken-leveladversarialgcg
通用對抗性觸發
發掘並部署能跨多個大型語言模型家族可靠覆寫安全對齊的通用對抗性觸發序列,包含基於梯度的搜尋、轉移攻擊與防禦規避。
prompt-injectionuniversal-triggeradversarialgcgtransfer
通用後綴攻擊
跨模型與提示詞轉移的通用對抗性後綴的研究與實務。
prompt-injectionuniversal-suffixgcgtransfer
GCG Adversarial Suffix 攻擊 詳解
Complete walkthrough of implementing the Greedy Coordinate Gradient adversarial suffix attack.
walkthroughsgcgadversarialoptimization