# manipulation

agentic-exploitationagent-memorysummarymanipulation

Memory Summary Manipulation

Exploiting automatic memory summarization to embed persistent instructions in compressed context.

agentic-exploitationfunction-callingtool-selectionmanipulation

Tool Selection Manipulation

Manipulate model tool selection decisions through crafted prompts that bias toward attacker-preferred functions.

agentic-exploitationmcpresourcemanipulation

MCP Resource Manipulation Attacks

Exploiting MCP resource exposure to access, modify, or exfiltrate data through resource URIs.

exploitationartifactagenticmanipulationa2a

A2A Artifact Manipulation

Manipulating artifacts exchanged between agents in A2A protocol for data poisoning and injection.

A2A Consensus Manipulation

Attacking multi-agent voting and consensus mechanisms to influence collective decision-making outcomes.

a2aconsensusmanipulation

exploitationtaskagenticmanipulationa2astate

A2A Task State Manipulation

Manipulating task states in A2A to skip validation, bypass approval, or redirect task completion.

agentic-exploitationmulti-agentconsensusmanipulation

Multi-Agent Consensus Manipulation

Manipulate voting and consensus mechanisms in multi-agent decision-making systems.

agentic-exploitationplanningagentmanipulation

Planning Agent Manipulation

Manipulating LLM-based planning agents to execute adversarial action sequences.

workflowtool-selectionmanipulation

Tool Selection Manipulation in Workflows

Influencing the tool selection process in agent workflows to redirect execution through attacker-controlled tools.

exploitationcheckpointworkflowagenticmanipulation

Workflow Checkpoint Manipulation

Manipulating workflow checkpoints and savepoints for state rollback attacks.

agentic-exploitationworkflowstatemanipulation

Workflow State Manipulation

Manipulating workflow state machines to skip validation steps and reach privileged execution paths.

assessmentcontext-windowmanipulation

Context Window Security Assessment

Assessment of context window overflow, attention manipulation, and long-context exploitation techniques.

code-gencode-reviewmanipulationai

Code Review AI Manipulation

Manipulating AI code review systems to approve vulnerable code or miss security issues.

code-genmulti-filecontextmanipulation

Multi-File Context Attacks

Exploiting how AI coding assistants process multi-file context to create distributed injection payloads across repository files.

code-genpull-requestreviewmanipulation

PR Review AI Manipulation

Techniques for manipulating AI-powered code review tools to approve malicious changes or miss security vulnerabilities.

code-gentestinggenerationmanipulation

Advanced Test Generation Manipulation

Advanced techniques for manipulating AI-generated tests to create false assurance by generating tests that pass but don't verify security properties.

data-trainingannotationlabelingmanipulation

Annotation Manipulation Attacks

Compromising model training by manipulating annotations and labels during the data labeling process, including insider and crowdsourcing attacks.

data-trainingcontinual-learningcatastrophic-forgettingmanipulation

Continual Learning Vulnerabilities

Exploiting continual learning update mechanisms to introduce vulnerabilities through incremental model updates without triggering safety evaluations.

data-trainingcurriculum-learningschedulingmanipulation

Curriculum Learning Exploitation

Exploiting curriculum learning strategies by manipulating the order and pacing of training data presentation to amplify poisoning effectiveness.

data-trainingaugmentationmanipulationtraining

Data Augmentation Attacks

Exploiting automated data augmentation pipelines to amplify poisoned samples or introduce adversarial patterns through augmentation transformations.

data-trainingRLHFfeedbackmanipulation

Reinforcement Feedback Poisoning

Compromising reinforcement learning from human feedback by poisoning preference data, manipulating reward models, or exploiting annotator disagreement.

embeddingbackdoortrainingmanipulation

Embedding Backdoor Attacks

Inserting backdoors into embedding models that cause specific trigger inputs to produce predetermined embedding vectors for adversarial retrieval.

embeddinghybrid-searchfusionmanipulation

Hybrid Search Manipulation

Attacking hybrid search systems that combine dense and sparse retrieval by exploiting score fusion and re-ranking vulnerabilities.

embeddingsimilaritygamingmanipulation

Similarity Search Gaming

Techniques for crafting adversarial content that games similarity search to ensure attacker-controlled documents rank highest in retrieval results.

embeddingsimilaritymanipulationsearch

Similarity Search Manipulation

Manipulating similarity search results through adversarial embedding crafting.

vectorsparsemanipulationembedding

Sparse Embedding Manipulation

Manipulating sparse embeddings (BM25, SPLADE) for retrieval result poisoning.

fine-tuningcheckpointmanipulationpersistence

Checkpoint Manipulation Attacks

Intercepting and modifying model checkpoints during the fine-tuning process to inject persistent backdoors or remove safety properties.

fine-tuninginstruction-tuningmanipulationsafety

Instruction Tuning Manipulation

Techniques for manipulating instruction-tuned models by crafting adversarial training examples that alter the model's instruction-following behavior.

fine-tuningRLHFpreferencemanipulation

RLHF Preference Manipulation

Strategies for manipulating RLHF preference rankings to shift model behavior, including Sybil attacks on crowdsourced preferences.

cotexploitationreasoningmanipulation

Chain-of-Thought Exploitation

Techniques for manipulating reasoning chains in CoT-enabled models: false premise injection, logic bombs, reasoning hijacking, and chain corruption attacks.

researchattentionmanipulationmechanistic

Attention Manipulation Research

Research into directly manipulating attention patterns to achieve injection objectives, informed by mechanistic interpretability insights.

logitsoutput-distributionsoftmaxtoken-competitionmanipulation

Logit Manipulation

Techniques for influencing LLM output distributions through crafted inputs that push logit values toward attacker-desired tokens, exploiting softmax mechanics and token competition dynamics.

advancedlabragmanipulationlabs

Advanced RAG Manipulation Lab

Perform sophisticated RAG manipulation including embedding space attacks, metadata poisoning, and retrieval algorithm gaming.

labsreasoning-tracemanipulationadvanced

Lab: Reasoning Trace Manipulation

Manipulate chain-of-thought reasoning traces to inject false premises and redirect model conclusions.

labsattentionmanipulationtransformeradvanced

Attention Pattern Manipulation

Craft inputs that manipulate transformer attention patterns to prioritize adversarial content over safety instructions.

labsconversation-historymanipulationbeginner

Lab: Conversation History Manipulation

Test how LLM applications handle conversation history including truncation, injection, and context window management.

laboutputformatmanipulation

Lab: Output Format Manipulation

Hands-on lab on forcing LLMs to output in specific formats including JSON injection, markdown manipulation, and structured output exploitation for data exfiltration.

labstokensmanipulationbeginner

Lab: Token Manipulation Basics

Understand how tokenization affects LLM behavior and practice basic token-level manipulation techniques.

labskv-cachemanipulationinferenceexpert

KV Cache Manipulation Attacks

Manipulate key-value caches in inference servers to inject or alter cached context across requests.

intermediatelabpracticalmanipulationembeddinglabs

Practical Embedding Manipulation

Manipulate text to achieve target embedding similarities for poisoning retrieval augmented generation systems.

labembeddingsmanipulationvectors

Lab: Embedding Space Manipulation

Hands-on lab for crafting documents optimized to be retrieved for specific queries through embedding collision attacks using sentence-transformers.

labsllm-judgemanipulationintermediate

LLM Judge Manipulation

Craft responses that exploit LLM-as-judge evaluation patterns to achieve high safety scores while embedding harmful content.

labragrerankingmanipulationdata-attacks

Lab: Re-ranking Attacks

Hands-on lab for manipulating the re-ranking stage of RAG pipelines to promote or suppress specific documents in retrieval results.

labssemantic-searchmanipulationintermediate

Lab: Semantic Search Manipulation

Manipulate semantic search results by crafting documents that achieve target similarity scores against specific queries.

labschat-historymanipulationintermediate

Chat History Manipulation Attacks

Inject false messages into conversation history to alter model behavior in subsequent turns.

labsfunction-schemamanipulationintermediate

Function Schema Manipulation

Exploit function calling schemas to inject instructions through parameter descriptions and enums.

llmopsab-testingexploitationmanipulation

Advanced A/B Test Exploitation

Manipulating A/B testing frameworks to bias model selection toward less secure variants or introduce adversarial model candidates.

llmopsfeature-flagsmanipulationconfiguration

Feature Flag Manipulation in AI Systems

Attacking feature flag systems to alter AI system behavior, enable hidden capabilities, or disable safety controls in production.

videotemporalframe-injectionmanipulation

Temporal Manipulation & Frame Injection

Techniques for injecting adversarial frames into video streams, temporal consistency attacks, and single-frame injection for behavior change in video AI models.

conversation-steeringpersistencetopic-driftmanipulationred-teaming

Conversation Steering

Techniques for gradually redirecting conversation context toward attack objectives without triggering safety mechanisms.

prompt-injectionprefixprimingmanipulation

Prefix Injection Attacks

Prepending carefully crafted content before user queries to prime model behavior and create a favorable context for subsequent injection attempts.

social-engineeringpersuasionmanipulationjailbreakred-teaming

Social Engineering of AI

Manipulating AI systems through emotional appeals, authority claims, urgency framing, and social pressure tactics that exploit instruction-following tendencies.

retrievalmanipulationragquery-reformulationsemantic-similarity

Retrieval Manipulation (Rag Data Attacks)

Techniques for manipulating RAG retrieval to control which documents reach the LLM context, including adversarial query reformulation, retriever bias exploitation, and semantic similarity gaming.

social-engineeringhuman-factorsoperatorsaccessmanipulation

Social Engineering for AI Systems

Manipulating human operators and administrators of AI systems to gain access, extract information, or bypass security controls through social engineering techniques.

training-pipelinecheckpointmanipulationweights

Checkpoint Manipulation Attacks (Training Pipeline)

Direct manipulation of model checkpoints and saved weights to inject backdoors or alter behavior.

instructionpipelinetuningmanipulationtraining

Instruction Tuning Data Manipulation

Manipulating instruction tuning datasets to embed specific behaviors in the resulting model.

trainingweightsmanipulation

Model Weight Manipulation Techniques

Direct manipulation of model weights to inject backdoors, modify behavior, and bypass safety training.

walkthroughscontextmanipulationadvanced

Advanced Context Manipulation Walkthrough

Manipulate conversation context through history injection, context overflow, and attention weight exploitation.

diveattackscontextdeepmanipulationwalkthroughs

Context Manipulation Deep Dive

Advanced walkthrough of context window manipulation techniques including attention dilution and instruction priority shifting.

agentschain-of-thoughtreasoningmanipulationadvanced

操弄推理鏈

影響 AI 代理的 chain-of-thought 推理，將其規劃、決策與工具選擇導向攻擊者期望結果的技術。

agentic-exploitationagent-memorysummarymanipulation

記憶體 Summary Manipulation

利用ing automatic memory summarization to embed persistent instructions in compressed context.

agentic-exploitationfunction-callingtool-selectionmanipulation

工具 Selection Manipulation

Manipulate model tool selection decisions through crafted prompts that bias toward attacker-preferred functions.

agentic-exploitationmcpresourcemanipulation

MCP Resource Manipulation 攻擊s

利用ing MCP resource exposure to access, modify, or exfiltrate data through resource URIs.

exploitationartifactagenticmanipulationa2a

A2A Artifact Manipulation

Manipulating artifacts exchanged between agents in A2A protocol for data poisoning and injection.

A2A Consensus Manipulation

攻擊ing multi-agent voting and consensus mechanisms to influence collective decision-making outcomes.

a2aconsensusmanipulation

exploitationtaskagenticmanipulationa2astate

A2A Task State Manipulation

Manipulating task states in A2A to skip validation, bypass approval, or redirect task completion.

agentic-exploitationmulti-agentconsensusmanipulation

Multi-代理 Consensus Manipulation

Manipulate voting and consensus mechanisms in multi-agent decision-making systems.

agentic-exploitationplanningagentmanipulation

Planning 代理 Manipulation

Manipulating LLM-based planning agents to execute adversarial action sequences.

workflowtool-selectionmanipulation

工具 Selection Manipulation in Workflows

Influencing the tool selection process in agent workflows to redirect execution through attacker-controlled tools.

exploitationcheckpointworkflowagenticmanipulation

Workflow Checkpoint Manipulation

Manipulating workflow checkpoints and savepoints for state rollback attacks.

agentic-exploitationworkflowstatemanipulation

Workflow State Manipulation

Manipulating workflow state machines to skip validation steps and reach privileged execution paths.

assessmentcontext-windowmanipulation

Context Window 安全評量

評量 of context window overflow, attention manipulation, and long-context exploitation techniques.

code-gencode-reviewmanipulationai

Code Review AI Manipulation

Manipulating AI code review systems to approve vulnerable code or miss security issues.

code-genmulti-filecontextmanipulation

Multi-File Context 攻擊s

利用ing how AI coding assistants process multi-file context to create distributed injection payloads across repository files.

code-genpull-requestreviewmanipulation

PR Review AI Manipulation

Techniques for manipulating AI-powered code review tools to approve malicious changes or miss security vulnerabilities.

code-gentestinggenerationmanipulation

進階 Test Generation Manipulation

Advanced techniques for manipulating AI-generated tests to create false assurance by generating tests that pass but don't verify security properties.

data-trainingannotationlabelingmanipulation

Annotation Manipulation 攻擊s

Compromising model training by manipulating annotations and labels during the data labeling process, including insider and crowdsourcing attacks.

data-trainingcontinual-learningcatastrophic-forgettingmanipulation

Continual Learning Vulnerabilities

利用ing continual learning update mechanisms to introduce vulnerabilities through incremental model updates without triggering safety evaluations.

data-trainingcurriculum-learningschedulingmanipulation

Curriculum Learning 利用ation

利用ing curriculum learning strategies by manipulating the order and pacing of training data presentation to amplify poisoning effectiveness.

data-trainingaugmentationmanipulationtraining

Data Augmentation 攻擊s

利用ing automated data augmentation pipelines to amplify poisoned samples or introduce adversarial patterns through augmentation transformations.

data-trainingRLHFfeedbackmanipulation

Reinforcement Feedback 投毒

Compromising reinforcement learning from human feedback by poisoning preference data, manipulating reward models, or exploiting annotator disagreement.

embeddingbackdoortrainingmanipulation

Embedding Backdoor 攻擊s

Inserting backdoors into embedding models that cause specific trigger inputs to produce predetermined embedding vectors for adversarial retrieval.

embeddinghybrid-searchfusionmanipulation

Hybrid Search Manipulation

攻擊ing hybrid search systems that combine dense and sparse retrieval by exploiting score fusion and re-ranking vulnerabilities.

embeddingsimilaritygamingmanipulation

Similarity Search Gaming

Techniques for crafting adversarial content that games similarity search to ensure attacker-controlled documents rank highest in retrieval results.

embeddingsimilaritymanipulationsearch

Similarity Search Manipulation

Manipulating similarity search results through adversarial embedding crafting.

vectorsparsemanipulationembedding

Sparse Embedding Manipulation

Manipulating sparse embeddings (BM25, SPLADE) for retrieval result poisoning.

fine-tuningcheckpointmanipulationpersistence

Checkpoint Manipulation 攻擊s

Intercepting and modifying model checkpoints during the fine-tuning process to inject persistent backdoors or remove safety properties.

fine-tuninginstruction-tuningmanipulationsafety

Instruction Tuning Manipulation

Techniques for manipulating instruction-tuned models by crafting adversarial training examples that alter the model's instruction-following behavior.

fine-tuningRLHFpreferencemanipulation

RLHF Preference Manipulation

Strategies for manipulating RLHF preference rankings to shift model behavior, including Sybil attacks on crowdsourced preferences.

cotexploitationreasoningmanipulation

Chain-of-Thought 利用ation

Techniques for manipulating reasoning chains in CoT-enabled models: false premise injection, logic bombs, reasoning hijacking, and chain corruption attacks.

researchattentionmanipulationmechanistic

Attention Manipulation Research

Research into directly manipulating attention patterns to achieve injection objectives, informed by mechanistic interpretability insights.

logitsoutput-distributionsoftmaxtoken-competitionmanipulation

Logit Manipulation

Techniques for influencing LLM output distributions through crafted inputs that push logit values toward attacker-desired tokens, exploiting softmax mechanics and token competition dynamics.

advancedlabragmanipulationlabs

進階 RAG Manipulation 實驗室

Perform sophisticated RAG manipulation including embedding space attacks, metadata poisoning, and retrieval algorithm gaming.

labsreasoning-tracemanipulationadvanced

實驗室: Reasoning Trace Manipulation

Manipulate chain-of-thought reasoning traces to inject false premises and redirect model conclusions.

labsattentionmanipulationtransformeradvanced

Attention Pattern Manipulation

Craft inputs that manipulate transformer attention patterns to prioritize adversarial content over safety instructions.

labsconversation-historymanipulationbeginner

實驗室: Conversation History Manipulation

Test how LLM applications handle conversation history including truncation, injection, and context window management.

laboutputformatmanipulation

實驗室: Output Format Manipulation

Hands-on lab on forcing LLMs to output in specific formats including JSON injection, markdown manipulation, and structured output exploitation for data exfiltration.

labstokensmanipulationbeginner

實驗室: Token Manipulation Basics

Understand how tokenization affects LLM behavior and practice basic token-level manipulation techniques.

labskv-cachemanipulationinferenceexpert

KV Cache Manipulation 攻擊s

Manipulate key-value caches in inference servers to inject or alter cached context across requests.

intermediatelabpracticalmanipulationembeddinglabs

Practical Embedding Manipulation

Manipulate text to achieve target embedding similarities for poisoning retrieval augmented generation systems.

labembeddingsmanipulationvectors

實作：Embedding 空間操弄

使用 sentence-transformers 經 embedding 碰撞攻擊打造為特定查詢被檢索而最佳化之文件之實作。

labsllm-judgemanipulationintermediate

LLM Judge Manipulation

Craft responses that exploit LLM-as-judge evaluation patterns to achieve high safety scores while embedding harmful content.

labragrerankingmanipulationdata-attacks

實驗室: Re-ranking 攻擊s

Hands-on lab for manipulating the re-ranking stage of RAG pipelines to promote or suppress specific documents in retrieval results.

labssemantic-searchmanipulationintermediate

實驗室: Semantic Search Manipulation

Manipulate semantic search results by crafting documents that achieve target similarity scores against specific queries.

labschat-historymanipulationintermediate

Chat History Manipulation 攻擊s

Inject false messages into conversation history to alter model behavior in subsequent turns.

labsfunction-schemamanipulationintermediate

Function Schema Manipulation

利用 function calling schemas to inject instructions through parameter descriptions and enums.

embeddingsadversarialvector-spacemanipulation

嵌入操控

攻擊模型表示意義的向量空間——涵蓋對抗性嵌入打造、嵌入空間投毒與語意碰撞攻擊。

llmopsab-testingexploitationmanipulation

進階 A/B Test 利用ation

Manipulating A/B testing frameworks to bias model selection toward less secure variants or introduce adversarial model candidates.

llmopsfeature-flagsmanipulationconfiguration

Feature Flag Manipulation in AI Systems

攻擊ing feature flag systems to alter AI system behavior, enable hidden capabilities, or disable safety controls in production.

videotemporalframe-injectionmanipulation

時序操弄與影格注入

將對抗影格注入影片串流的技術、時序一致性攻擊，以及透過單一影格注入改變影片 AI 模型行為。

conversation-steeringpersistencetopic-driftmanipulationred-teaming

對話引導

在不觸發安全機制下逐步將對話上下文重導向攻擊目標的技術。

prompt-injectionprefixprimingmanipulation

Prefix Injection 攻擊s

Prepending carefully crafted content before user queries to prime model behavior and create a favorable context for subsequent injection attempts.

social-engineeringpersuasionmanipulationjailbreakred-teaming

Social Engineering of AI

Manipulating AI systems through emotional appeals, authority claims, urgency framing, and social pressure tactics that exploit instruction-following tendencies.

retrievalmanipulationragquery-reformulationsemantic-similarity

Retrieval Manipulation (Rag Data 攻擊s)

Techniques for manipulating RAG retrieval to control which documents reach the LLM context, including adversarial query reformulation, retriever bias exploitation, and semantic similarity gaming.

social-engineeringhuman-factorsoperatorsaccessmanipulation

針對 AI 系統的社交工程

透過社交工程技術操弄 AI 系統的人員與管理者，以取得存取、擷取資訊，或繞過安全控管。

training-pipelinecheckpointmanipulationweights

Checkpoint Manipulation 攻擊s (訓練 Pipeline)

Direct manipulation of model checkpoints and saved weights to inject backdoors or alter behavior.

instructionpipelinetuningmanipulationtraining

Instruction Tuning Data Manipulation

Manipulating instruction tuning datasets to embed specific behaviors in the resulting model.

trainingweightsmanipulation

模型 Weight Manipulation Techniques

Direct manipulation of model weights to inject backdoors, modify behavior, and bypass safety training.

walkthroughscontextmanipulationadvanced

進階 Context Manipulation 導覽

Manipulate conversation context through history injection, context overflow, and attention weight exploitation.

diveattackscontextdeepmanipulationwalkthroughs

Context Manipulation Deep Dive

進階 walkthrough of context window manipulation techniques including attention dilution and instruction priority shifting.