# optimization
標記為「optimization」的 27 篇文章
社群挑戰:Prompt Golf
以儘可能最短之提示達成越獄,以字元計數評分。發展以最大效率繞過安全對齊之最小 payload。
基於梯度的資料投毒
進階的基於梯度的投毒樣本設計技術,使其對模型行為影響最大化。
對抗性嵌入
打造在語意上與目標內容接近、但載有惡意 payload 之對抗性嵌入的技術,包括嵌入空間操弄與最佳化方法。
AI Exploit 開發
對抗後綴生成、無梯度最佳化、規避 WAF 之注入 payload,以及對 AI 系統之 fuzzing 框架。
開發可遷移攻擊
跨模型攻擊技術、量測可遷移性、集成最佳化,以及為 AI 紅隊提供的實務遷移測試方法論。
打造對抗性 Payload
建立有效提示詞注入 payload 的系統性方法論,包含範本設計、最佳化技術與多技術組合策略。
Token 優化工具包開發
打造工具包,使用梯度型與演化方法優化對抗 token 序列。
Token 優化技術
實作 token 層級優化演算法以發掘對抗輸入,包括 GCG、AutoDAN 與自訂梯度型取徑。
獎勵模型操弄
操弄獎勵模型以產出高獎勵輸出、但繞過獎勵訊號原本預期安全目標的技術。
獎勵模型攻擊
模型如何透過獎勵駭入學會鑽獎勵訊號漏洞——利用獎勵模型瑕疵、RLHF 中的古德哈特定律、對抗性獎勵最佳化,以及語言模型訓練中獎勵駭入的實務範例。
LLM 作為攻擊者的最佳化
將 LLM 最佳化為對抗性攻擊生成器的技術:攻擊模型的提示詞工程、上下文管理、多樣性最佳化以及攻擊者模型選型。
RL-Based 攻擊 Optimization
Using reinforcement learning to train adversarial attack policies against AI systems: reward design, policy architectures, curriculum learning, and transferability of learned attacks.
進階獎勵模型利用
系統性地利用獎勵模型的方法,包括過度最佳化、規格遊戲與 Goodhart 定律效應。
基於 RL 的越獄最佳化
利用強化學習最佳化越獄攻擊,包括梯度式與黑箱式 RL 方法。
對抗性後綴生成
GCG 攻擊、通用對抗觸發子、軟提示最佳化,以及用於自動化對齊繞過的防禦規避技術。
對抗性後綴優化 (GCG)
實作 Greedy Coordinate Gradient 攻擊以產生對抗性後綴。
Token Wars: Adversarial Optimization Challenge
Optimize 對抗性 符元s to achieve target model behaviors under strict character limits.
實作:對抗性後綴優化
實作 GCG-style 對抗性 suffix attacks that automatically discover 符元 sequences causing 語言模型 to comply with harmful requests. Covers 梯度-based optimization, transferability analysis, and defense evaluation.
實驗:上下文窗口攻擊最佳化
透過注意力動態,最佳化提示注入在上下文窗口中的擺放位置以最大化攻擊效果。
供應鏈最佳化 AI 評估
評估 AI 供應鏈最佳化系統,檢視需求預測與路徑決策的操控風險。
推論最佳化風險
模型最佳化技術的安全意涵——涵蓋量化安全降級、剪枝漏洞引入、蒸餾攻擊與推測解碼風險。
對抗性提示詞最佳化
使用系統化搜尋與最佳化演算法,為特定目標行為發掘最有效的對抗性提示詞。
推論最佳化攻擊
推測解碼攻擊、批次處理漏洞、持續批次利用,以及速度最佳化如何於 LLM 推論中造就安全缺口。
獎勵 Hacking 與鑽營
模型利用獎勵訊號而非遵循意圖,含規格鑽營、RLHF 中之 Goodhart 定律、生產範例,以及紅隊意涵。
對抗性後綴打造演練
以梯度式與無梯度最佳化方法為黑盒模型打造對抗性後綴。
GCG Adversarial Suffix 攻擊 詳解
Complete walkthrough of implementing the Greedy Coordinate Gradient adversarial suffix attack.
Token-Level 攻擊 Optimization 詳解
Walkthrough of optimizing adversarial token sequences for maximum jailbreak effectiveness.