# manipulation
標記為「manipulation」的 58 篇文章
操弄推理鏈
影響 AI 代理的 chain-of-thought 推理,將其規劃、決策與工具選擇導向攻擊者期望結果的技術。
記憶體摘要操縱
操縱代理生成的對話摘要與長期摘要,以抹除或扭曲重要歷史或注入對抗指令。
工具選擇操弄
透過打造偏向攻擊者偏好函式之提示,操弄模型之工具選擇決策。
MCP 資源操縱
操縱 MCP 伺服器對外暴露的資源內容或 metadata,以影響讀取資源的代理行為。
A2A 成品操縱
操縱 A2A 協議中代理間傳遞的成品(Artifact)內容或 metadata,以影響下游代理行為。
A2A 共識操縱
操縱多代理共識機制(投票、拜占庭容錯、決策協商)以達成未授權結果的攻擊。
A2A 任務狀態操縱
操縱 A2A 任務狀態機(待辦、執行中、完成、取消),以跳過驗證或重複執行。
多代理共識操弄
操弄多代理決策系統中之投票與共識機制。
規劃代理操控
操控以 LLM 為基礎的規劃代理,使其執行對抗性動作序列。
工具 Selection Manipulation in Workflows
Influencing the tool selection process in agent workflows to redirect execution through attacker-controlled tools.
工作流程檢查點操弄
操弄工作流程檢查點與儲存點,進行狀態回滾攻擊。
工作流程狀態操控
操控工作流程狀態機,以略過驗證步驟並抵達具特權的執行路徑。
上下文視窗安全評估
評估 of 上下文視窗 overflow、attention manipulation、long-context 利用技巧。
操縱 AI 進行程式碼檢閱
操縱 AI 驅動程式碼檢閱工具的技術,用以核准惡意程式碼或壓下合法發現。
多檔案上下文攻擊
跨多個檔案建構並觸發的 AI 程式助理攻擊,以規避單檔偵測。
操縱 PR 檢閱 AI
操縱 PR 檢閱流程中的 AI 程式碼檢閱工具,使其核准惡意程式碼。
進階測試生成操縱
操縱 AI 測試生成的進階技術,使測試看似充分實則漏洞仍在。
註解操縱攻擊
透過在資料標註流程中操縱註解與標籤以破壞模型訓練,涵蓋內部人員與群眾外包攻擊。
持續學習漏洞
利用持續學習系統的漏洞來植入後門並操縱已更新的模型。
課程學習利用
利用課程學習的排程,於模型漸進訓練過程中植入隱蔽偏差。
資料增強攻擊
利用資料增強流程,在訓練資料集中植入後門與偏差。
強化回饋投毒
在人類回饋強化學習中操縱獎勵訊號與回饋。
嵌入後門攻擊
植入後門至嵌入模型,讓特定觸發器產生可預測且由攻擊者控制的嵌入。
混合搜尋操縱
操縱結合密集與稀疏檢索的混合搜尋系統,使其優先排序攻擊者選定的內容。
相似度搜尋遊戲化操弄
操弄相似度搜尋以獲得不成比例的排名或可見度,例如 SEO 式的嵌入空間濫用。
相似度搜尋操縱
操縱相似度搜尋結果,以影響檢索系統的排名與可見度。
稀疏嵌入操縱
操縱 SPLADE 等稀疏嵌入模型的詞彙權重。
檢查點操控攻擊
在微調過程中攔截並修改模型檢查點,以植入持久後門或移除安全性質。
指令微調操控
透過打造對抗性訓練樣本改變指令微調模型之指令遵循行為的技術。
RLHF 偏好操控
操控 RLHF 偏好排名以改變模型行為的策略,包括對群眾外包偏好的 Sybil 攻擊。
Chain-of-Thought 利用ation
Techniques for manipulating reasoning chains in CoT-enabled models: false premise injection, logic bombs, reasoning hijacking, and chain corruption attacks.
注意力操弄研究
以機制可解釋性洞見為依據,研究直接操弄注意力模式以達成注入目標的方法。
Logit 操縱
透過精心設計的輸入影響 LLM 輸出分布、將 logit 值推向攻擊者所期望符元的技術,利用 softmax 機制與符元競爭動態。
進階 RAG 操控實驗室
執行精密的RAG 操控,包括 嵌入空間攻擊,中繼資料投毒,檢索演算法作弊.
實作:推理軌跡操控
Manipulate chain-of-thought reasoning traces to inject false premises and redirect model conclusions.
Attention Pattern 操控
Craft inputs that manipulate transformer attention patterns to prioritize adversarial content over safety instructions.
Lab: Conversation History Manipulation
測試 how LLM applications handle conversation history including truncation, injection, and context window management.
實作:輸出格式操控
動手實作 on forcing LLMs to output in specific formats including JSON injection, markdown manipulation, and structured output 漏洞利用 for data exfiltration.
實作:符元操控基礎
理解 how 符元ization affects LLM behavior and practice basic 符元-level manipulation 技術.
KV Cache 操控 Attacks
Manipulate key-value caches in inference servers to inject or alter cached context across requests.
Practical 嵌入 操控
Manipulate text to achieve target embedding similarities for poisoning retrieval augmented generation systems.
實作:嵌入空間操控
動手實作,示範如何透過嵌入碰撞攻擊,使用 sentence-transformers 來精心製作可被特定查詢檢索出的文件。
LLM Judge 操控
Craft responses that exploit LLM-as-judge evaluation patterns to achieve high safety scores while embedding harmful content.
實驗室: Re-ranking Attacks
動手實驗室,主題為manipulating the re-ranking stage of RAG pipelines to promote or suppress specific documents in retrieval results.
實驗:語意搜尋操弄
透過設計文件以對特定查詢達到目標相似度分數,操弄語意搜尋結果。
Chat History 操控 Attacks
注入false messages into conversation history to alter model behavior in subsequent turns.
Function Schema 操控
利用 function calling schemas to inject instructions through parameter descriptions與enums.
進階 A/B 測試利用
操弄 A/B 測試框架使模型選擇偏向較不安全的變體,或引入對抗性的模型候選。
AI 系統的 Feature Flag 操弄
攻擊 feature flag 系統以改變 AI 系統行為、啟用隱藏能力或停用生產環境的安全控制。
時序操弄與影格注入
將對抗影格注入影片串流的技術、時序一致性攻擊,以及透過單一影格注入改變影片 AI 模型行為。
對 AI 的社交工程
透過情感訴求、權威聲明、緊急框架與社交壓力戰術操控 AI 系統,利用其指令遵循傾向。
檢索操縱(RAG 資料攻擊)
操縱 RAG 檢索以控制哪些文件進入 LLM 上下文的技術,涵蓋對抗性查詢改寫、檢索器偏差利用與語意相似度操弄。
針對 AI 系統的社交工程
透過社交工程技術操弄 AI 系統的人員與管理者,以取得存取、擷取資訊,或繞過安全控管。
Checkpoint 操弄攻擊(訓練管道)
直接操弄模型 checkpoint 與已儲存權重以植入後門或改變行為。
指令調校資料操弄
操弄指令調校資料集,在產生的模型中嵌入特定行為。
模型權重操弄技術
直接操弄模型權重以植入後門、修改行為並繞過安全訓練。
Advanced Context Manipulation 詳解
Manipulate conversation context through history injection, context overflow, and attention weight exploitation.
上下文操控深度探討
Advanced walkthrough of context window manipulation techniques including attention dilution and instruction priority shifting.