# manipulation

researchattentionmanipulationmechanistic

注意力操弄研究

以機制可解釋性洞見為依據,研究直接操弄注意力模式以達成注入目標的方法。

logitsoutput-distributionsoftmaxtoken-competitionmanipulation

Logit 操縱

透過精心設計的輸入影響 LLM 輸出分布、將 logit 值推向攻擊者所期望符元的技術,利用 softmax 機制與符元競爭動態。

advancedlabragmanipulationlabs

進階 RAG 操控實驗室

執行精密的RAG 操控,包括嵌入空間攻擊,中繼資料投毒,檢索演算法作弊.

labsreasoning-tracemanipulationadvanced

實作：推理軌跡操控

Manipulate chain-of-thought reasoning traces to inject false premises and redirect model conclusions.

labsattentionmanipulationtransformeradvanced

Attention Pattern 操控

Craft inputs that manipulate transformer attention patterns to prioritize adversarial content over safety instructions.

labsconversation-historymanipulationbeginner

Lab: Conversation History Manipulation

測試 how LLM applications handle conversation history including truncation, injection, and context window management.

入門

實作：輸出格式操控

動手實作 on forcing LLMs to output in specific formats including JSON injection, markdown manipulation, and structured output 漏洞利用 for data exfiltration.

laboutputformatmanipulation

入門

實作：符元操控基礎

理解 how 符元ization affects LLM behavior and practice basic 符元-level manipulation 技術.

labstokensmanipulationbeginner

入門

KV Cache 操控 Attacks

Manipulate key-value caches in inference servers to inject or alter cached context across requests.

labskv-cachemanipulationinferenceexpert

intermediatelabpracticalmanipulationembeddinglabs

Practical 嵌入操控

Manipulate text to achieve target embedding similarities for poisoning retrieval augmented generation systems.

labembeddingsmanipulationvectors

實作：嵌入空間操控

動手實作，示範如何透過嵌入碰撞攻擊，使用 sentence-transformers 來精心製作可被特定查詢檢索出的文件。

labsllm-judgemanipulationintermediate

LLM Judge 操控

Craft responses that exploit LLM-as-judge evaluation patterns to achieve high safety scores while embedding harmful content.

labragrerankingmanipulationdata-attacks

實驗室: Re-ranking Attacks

動手實驗室,主題為manipulating the re-ranking stage of RAG pipelines to promote or suppress specific documents in retrieval results.

labssemantic-searchmanipulationintermediate

實驗：語意搜尋操弄

透過設計文件以對特定查詢達到目標相似度分數，操弄語意搜尋結果。

labschat-historymanipulationintermediate

Chat History 操控 Attacks

注入false messages into conversation history to alter model behavior in subsequent turns.

labsfunction-schemamanipulationintermediate

Function Schema 操控

利用 function calling schemas to inject instructions through parameter descriptions與enums.

llmopsab-testingexploitationmanipulation

進階 A/B 測試利用

操弄 A/B 測試框架使模型選擇偏向較不安全的變體，或引入對抗性的模型候選。

llmopsfeature-flagsmanipulationconfiguration

AI 系統的 Feature Flag 操弄

攻擊 feature flag 系統以改變 AI 系統行為、啟用隱藏能力或停用生產環境的安全控制。

videotemporalframe-injectionmanipulation

時序操弄與影格注入

將對抗影格注入影片串流的技術、時序一致性攻擊，以及透過單一影格注入改變影片 AI 模型行為。

social-engineeringmanipulationemotional-appealauthorityred-teaming

對 AI 的社交工程

透過情感訴求、權威聲明、緊急框架與社交壓力戰術操控 AI 系統，利用其指令遵循傾向。

retrievalmanipulationragquery-reformulationsemantic-similarity

檢索操縱（RAG 資料攻擊）

操縱 RAG 檢索以控制哪些文件進入 LLM 上下文的技術，涵蓋對抗性查詢改寫、檢索器偏差利用與語意相似度操弄。

social-engineeringhuman-factorsoperatorsaccessmanipulation

針對 AI 系統的社交工程

透過社交工程技術操弄 AI 系統的人員與管理者，以取得存取、擷取資訊，或繞過安全控管。

training-pipelinecheckpointmanipulationweights

Checkpoint 操弄攻擊(訓練管道)

直接操弄模型 checkpoint 與已儲存權重以植入後門或改變行為。

instructionpipelinetuningmanipulationtraining

指令調校資料操弄

操弄指令調校資料集,在產生的模型中嵌入特定行為。

trainingweightsmanipulation

模型權重操弄技術

直接操弄模型權重以植入後門、修改行為並繞過安全訓練。

walkthroughscontextmanipulationadvanced

Advanced Context Manipulation 詳解

Manipulate conversation context through history injection, context overflow, and attention weight exploitation.

diveattackscontextdeepmanipulationwalkthroughs

上下文操控深度探討

Advanced walkthrough of context window manipulation techniques including attention dilution and instruction priority shifting.