# optimization

data-trainingpoisoninggradientoptimization

Gradient-Based Data Poisoning

Using gradient information to craft maximally effective poisoned samples that achieve attacker objectives with minimal data modification.

adversarial-embeddingsembedding-spacesemantic-similarityretrieval-poisoningoptimization

Adversarial Embeddings

Techniques for crafting adversarial embeddings that are semantically close to target content but contain malicious payloads, including embedding space manipulation and optimization methods.

exploit-devadversarialjailbreakfuzzingoptimizationprompt-injectionwaf-evasion

AI Exploit Development

Adversarial suffix generation, gradient-free optimization, WAF-evading injection payloads, and fuzzing frameworks for AI systems.

transferabilitycross-modeladversarialuniversal-jailbreakoptimizationllm-attacks

Developing Transferable Attacks

Cross-model attack techniques, measuring transferability, ensemble optimization, and practical transfer testing methodologies for AI red teams.

payload-craftingprompt-injectionexploit-devoptimizationtemplates

Crafting Adversarial Payloads

Systematic methodology for creating effective prompt injection payloads, including template design, optimization techniques, and multi-technique combination strategies.

toolkittokenoptimizationdevexploit

Token Optimization Toolkit Development

Build a toolkit for optimizing adversarial token sequences using gradient-based and evolutionary methods.

exploit-devtokensoptimizationadversarial

Token Optimizer Techniques

Implementing token-level optimization algorithms for discovering adversarial inputs, including GCG, AutoDAN, and custom gradient-based approaches.

fine-tuningreward-modelgamingoptimization

Reward Model Gaming

Techniques for gaming reward models to produce high-reward outputs that circumvent the intended safety objectives of the reward signal.

reward-hackingreward-modelgoodharts-lawrlhfoptimizationgamingfine-tuning-security

Reward Model Attacks

How models learn to game reward signals through reward hacking -- exploiting reward model flaws, Goodhart's Law in RLHF, adversarial reward optimization, and practical examples of reward hacking in language model training.

LLM-as-Attacker Optimization

Techniques for optimizing LLMs as adversarial attack generators: prompt engineering for attack models, context management, diversity optimization, and attacker model selection.

llm-attackeroptimization

reinforcement-learningoptimization

RL-Based Attack Optimization

Using reinforcement learning to train adversarial attack policies against AI systems: reward design, policy architectures, curriculum learning, and transferability of learned attacks.

frontierreward-modeloptimization

Advanced Reward Model Exploitation

Systematic approaches to gaming reward models through overoptimization, specification gaming, and Goodhart's Law.

basedoptimizationresearchfrontierjailbreak

RL-Based Jailbreak Optimization

Using reinforcement learning to optimize jailbreak strategies against black-box language models.

GCGadversarial-suffixesuniversal-triggerssoft-promptsoptimization

Adversarial Suffix Generation

GCG attacks, universal adversarial triggers, soft prompt optimization, and defense evasion techniques for automated alignment bypass.

labsgcgadversarial-suffixoptimization

Adversarial Suffix Optimization (GCG)

Implement the Greedy Coordinate Gradient attack to generate adversarial suffixes.

labsctfadversarialoptimization

Token Wars: Adversarial Optimization Challenge

Optimize adversarial tokens to achieve target model behaviors under strict character limits.

labexpertadversarial-suffixGCGoptimizationhands-on

Lab: Adversarial Suffix Optimization

Implement GCG-style adversarial suffix attacks that automatically discover token sequences causing language models to comply with harmful requests. Covers gradient-based optimization, transferability analysis, and defense evaluation.

labscontext-windowoptimizationintermediate

Lab: Context Window Attack Optimization

Optimize prompt injection placement within the context window to maximize attack effectiveness using attention dynamics.

labssimulationsupply-chainoptimization

Supply Chain Optimization AI Assessment

Assess an AI supply chain optimization system for manipulation of demand forecasts and routing decisions.

quantizationpruningdistillationoptimizationinferencesafety-degradation

Inference Optimization Risks

Security implications of model optimization techniques — covering quantization safety degradation, pruning vulnerability introduction, distillation attacks, and speculative decoding risks.

prompt-injectionoptimizationgradientsearch

Adversarial Prompt Optimization

Using systematic search and optimization algorithms to discover maximally effective adversarial prompts for specific target behaviors.

prompt-injectionsuffixadversarialoptimization

Suffix Manipulation Attacks

Appending optimized adversarial suffixes to user inputs that exploit model continuation tendencies to produce attacker-desired outputs.

inferencespeculative-decodingbatchingcontinuous-batchingoptimizationside-channel

Inference Optimization Attacks

Speculative decoding attacks, batching vulnerabilities, continuous batching exploitation, and how optimization for speed creates security gaps in LLM inference.

reward-hackingspecification-gamingGoodharts-lawRLHFreward-modeloptimization

Reward Hacking & Gaming

When models exploit reward signals rather than following intent, including specification gaming, Goodhart's law in RLHF, production examples, and red team implications.

walkthroughsadversarial-suffixcraftingoptimization

Adversarial Suffix Crafting Walkthrough

Craft adversarial suffixes using gradient-based and gradient-free optimization methods for black-box models.

walkthroughsgcgadversarialoptimization

GCG Adversarial Suffix Attack Walkthrough

Complete walkthrough of implementing the Greedy Coordinate Gradient adversarial suffix attack.

attacksoptimizationtokenwalkthroughs

Token-Level Attack Optimization Walkthrough

Walkthrough of optimizing adversarial token sequences for maximum jailbreak effectiveness.

communitycontributedprompt-golfminimaloptimizationjailbreak

社群挑戰：Prompt Golf

以儘可能最短之提示達成越獄，以字元計數評分。發展以最大效率繞過安全對齊之最小 payload。

data-trainingpoisoninggradientoptimization

Gradient-Based Data 投毒

Using gradient information to craft maximally effective poisoned samples that achieve attacker objectives with minimal data modification.

adversarial-embeddingsembedding-spacesemantic-similarityretrieval-poisoningoptimization

對抗性嵌入

打造在語意上與目標內容接近、但載有惡意 payload 之對抗性嵌入的技術，包括嵌入空間操弄與最佳化方法。

exploit-devadversarialjailbreakfuzzingoptimizationprompt-injectionwaf-evasion

AI Exploit 開發

對抗後綴生成、無梯度最佳化、規避 WAF 之注入 payload，以及對 AI 系統之 fuzzing 框架。

transferabilitycross-modeladversarialuniversal-jailbreakoptimizationllm-attacks

開發可遷移攻擊

跨模型攻擊技術、量測可遷移性、集成最佳化，以及為 AI 紅隊提供的實務遷移測試方法論。

payload-craftingprompt-injectionexploit-devoptimizationtemplates

打造對抗性 Payload

建立有效提示詞注入 payload 的系統性方法論，包含範本設計、最佳化技術與多技術組合策略。

toolkittokenoptimizationdevexploit

Token Optimization 工具kit Development

Build a toolkit for optimizing adversarial token sequences using gradient-based and evolutionary methods.

exploit-devtokensoptimizationadversarial

Token Optimizer Techniques

Implementing token-level optimization algorithms for discovering adversarial inputs, including GCG, AutoDAN, and custom gradient-based approaches.

fine-tuningreward-modelgamingoptimization

Reward 模型 Gaming

Techniques for gaming reward models to produce high-reward outputs that circumvent the intended safety objectives of the reward signal.

reward-hackingreward-modelgoodharts-lawrlhfoptimizationgamingfine-tuning-security

Reward 模型攻擊s

LLM-as-攻擊er Optimization

Techniques for optimizing LLMs as adversarial attack generators: prompt engineering for attack models, context management, diversity optimization, and attacker model selection.

llm-attackeroptimization

reinforcement-learningoptimization

RL-Based 攻擊 Optimization

Using reinforcement learning to train adversarial attack policies against AI systems: reward design, policy architectures, curriculum learning, and transferability of learned attacks.