# attacks

agentic-exploitationagent-memorycontext-windowattacks

記憶體上下文視窗攻擊

針對上下文視窗管理的攻擊，包括逐出操縱、符元預算耗盡與上下文位置利用。

agentic-exploitationfunction-callingforcedattacks

強制函式呼叫

強迫代理在不適當情境下呼叫函式、或強制特定函式路徑以繞過決策邏輯的攻擊。

disambiguationattacksexploitationagentictool

工具釐清攻擊

利用工具選擇之歧義，將函式呼叫重導至非預期之工具。

agentic-exploitationa2atask-injectionattacks

A2A 任務注入

向 A2A 代理注入未授權任務或修改既有任務以達成對抗目標的攻擊。

agentic-exploitationcross-agentmemoryattacks

跨代理記憶體攻擊

在多代理系統中跨代理傳播對抗性記憶、共享記憶體投毒與記憶體信任邊界違反的攻擊。

ai-forensicsattributionattacksinvestigation

AI 攻擊歸因

基於攻擊模式與指標將 AI 攻擊歸因於威脅行為者的技術。

assessmentsmultimodalattacksexam

多模態攻擊評估

評估涵蓋image injection、audio 攻擊、cross-modal 利用、多模態防禦 bypass。

code-genpair-programmingcopilotattacks

AI 結對程式設計攻擊

在 AI 結對程式設計情境中針對開發者的攻擊,以影響程式碼決策。

code-gentranslationattackscross-language

程式碼翻譯攻擊

在 LLM 驅動的程式語言間翻譯過程中引入漏洞。

code-gencopilotinjectionattacks

GitHub Copilot 注入攻擊

針對 GitHub Copilot 與相似程式助理的注入攻擊。

ideattacksextensioncodegen

IDE 擴充功能攻擊

透過惡意的 AI 驅動 IDE 擴充功能發動攻擊。

data-trainingpoisoningstrategiesattacks

資料投毒策略

大規模影響模型行為的訓練資料投毒綜合策略。

data-trainingdataset-inferenceattacksprivacy

資料集推論攻擊

透過分析模型行為推論訓練資料集的屬性。

attacksgradientdatatrainingleakage

梯度洩漏攻擊

從聯邦與協同學習情境中的梯度更新擷取訓練資料。

data-traininglabel-flippingattacksclassification

標籤翻轉攻擊

標籤翻轉攻擊的實務技巧及其對不同機器學習架構的效能。

watermarkingprovenancedetectionattackstext-watermark

AI 浮水印與攻擊

當前針對模型輸出與訓練資料的 AI 浮水印方案、其安全屬性,以及已知可移除、偽造或規避浮水印的攻擊。

data-trainingmodel-inversionattacksprivacy

模型反演攻擊

從模型梯度與預測中還原機器學習各情境下的私有訓練資料。

privacydata-protectionattackspii

隱私與資料保護攻擊

對 AI 系統之隱私攻擊概觀，含資料提取、成員推論與模型反轉，配法規意涵與紅隊方法論。

membership-inferenceprivacystatisticalattacks

成員推論攻擊

判定特定資料是否被用來訓練 AI 模型的技術,包括陰影模型途徑、基於損失的推論、LiRA 與實務實作指引。

model-inversionprivacyreconstructionattacks

模型反演攻擊(資料訓練)

從模型輸出重建訓練資料的技術,包括基於梯度的反演、生成式模型反演,以及對影像與語言模型的隱私意涵。

data-trainingprivacy-preservingattacksdifferential-privacy

對隱私保護機器學習的攻擊

針對差分隱私與同態加密等隱私保護機器學習技術的攻擊。

attacksinferencedatapropertytraining

屬性推論攻擊

透過分析模型行為與輸出來推論訓練資料集的全域屬性。

embeddingcross-encoderrerankingattacks

交叉編碼器重新排序攻擊

針對檢索管線中使用的交叉編碼器重新排序模型之攻擊手法。

embeddingcross-lingualmultilingualattacks

跨語言嵌入攻擊

利用跨語言嵌入空間繞過特定語言的安全過濾器,並透過翻譯落差注入對抗性內容。

attacksretrievalvectoradversarialembeddingdense

密集檢索對抗性攻擊

針對 RAG 與搜尋系統中所使用之密集檢索模型的對抗性攻擊。

vectorattacksembeddingdrift

嵌入漂移攻擊

透過反覆的小幅度操縱,使向量儲存中的嵌入逐漸產生漂移。

embeddinginversionattacksprivacy

嵌入反演攻擊

從嵌入向量反演出原始文字或 PII 的攻擊。

embeddingmulti-vectorColBERTattacks

多向量檢索攻擊

針對 ColBERT 等多向量檢索系統的攻擊,利用其逐符元互動評分機制。

embeddingmultimodalattacksclip

多模態嵌入攻擊

針對跨文字、影像與音訊對齊的多模態嵌入之攻擊。

embeddingvector-dbinjectionattacks

向量資料庫注入

透過中繼資料、過濾器與管理介面對向量資料庫進行注入攻擊。

fine-tuningadapterattacksPEFT

適配器層攻擊向量

針對參數高效適配器層（包括 LoRA、QLoRA 與 prefix tuning 模組）之攻擊向量的完整分析。

fine-tuningadapterpoisoningattacks

適配器投毒攻擊

對公開共享的適配器與 LoRA 權重進行投毒，以危害下游使用者。

fine-tuningalignment-removalsafetyattacks

透過微調進行對齊移除

以最少資料透過針對性微調移除安全對齊的技術。

fine-tuningconstitutional-AIRLAIFattacks

憲法式 AI 訓練攻擊

透過操控憲法原則、批判模型或自我改進迴圈，攻擊憲法式 AI 與 RLAIF 訓練管線。

fine-tuningDPOalignmentattacks

DPO 對齊攻擊

透過打造對抗性偏好配對攻擊 Direct Preference Optimization 訓練，在外觀合法的同時細微地改變模型行為。

attacksfinefewtuningshotdetuning

少樣本反調優攻擊

透過針對性的少樣本反調優，以極少微調資料移除安全對齊。

fine-tuningdata-requirementsminimumattacks

微調攻擊的最小資料量

有效微調攻擊所需的最小資料集規模研究。

fine-tuningloraattackstechniques

LoRA 攻擊技術

利用 Low-Rank Adaptation 微調進行安全對齊移除與後門植入。

fine-tuningmulti-tasktransferattacks

多任務微調攻擊

利用多任務微調在安全關鍵與效用導向訓練目標之間製造干擾。

語意相似度與向量搜尋攻擊

Cosine 相似度與最近鄰搜尋之運作方式，以及攻擊者如何經由對抗文件、embedding 碰撞與門檻繞過利用向量資料庫。

tokenizationbpesentencepieceattacksintermediate

分詞與其安全意涵

BPE 與 SentencePiece 分詞器如何運作，以及分詞器行為如何建立可利用攻擊面，包含邊界攻擊、同形字與編碼技巧。

taxonomyattacksclassificationbeginner

AI 攻擊分類

依目標、技術與影響組織之 AI 攻擊完整分類——為紅隊規劃與報告提供共享詞彙。

入門

前沿模型的對抗性強健性

針對前沿語言模型的對抗性強健性研究現況與待解的開放問題。

frontier-researchadversarial-robustnessfrontierattacks

frontier-researchmultimodalreasoningattacks

多模態推論攻擊

針對多模態模型的攻擊,包括跨模態注入與感知操弄。

reasoningo1chain-of-thoughtattacks

推理模型攻擊

推理啟用 LLM 之安全風險概觀：思維鏈模型如何引入新攻擊面、利用原語與防禦挑戰。

verifierreward-modelattacksrlhf

驗證器與獎勵模型攻擊

攻擊推理模型中使用之過程獎勵模型、結果獎勵模型與驗證系統：獎勵駭客、驗證器－生成器缺口與博弈驗證步驟。

frontier-researchpreference-optimizationattacksdpo

偏好最佳化攻擊

針對 DPO、IPO 與相關偏好最佳化方法的攻擊研究。

frontier-researchsynthetic-personaattacksresearch

合成人格攻擊

以合成人格在多代理系統中建立信任並進行利用的攻擊。

frontier-researchtest-time-computeattacksreasoning

測試時計算攻擊

針對測試時計算擴展的攻擊研究,包括反思漏洞。

infrastructureGPUclusterattacks

GPU 叢集攻擊面

GPU 叢集的攻擊面分析,包含多租戶隔離、記憶體共享與排程攻擊。

infrastructureautoscalingservingattacks

模型服務自動擴展攻擊

針對模型服務自動擴展的攻擊,包含資源耗盡、冷啟動與成本攻擊。

infrastructuremodel-servingattacksdeployment

模型服務基礎設施攻擊

模型服務基礎設施的攻擊,包含推論劫持、請求走私與資源耗盡。

labsgradient-basedattacksadvanced

Lab: Gradient-Based Attack Implementation

實作梯度-based 對抗性 attacks on open-weight models including PGD, FGSM adapted for text inputs.

labsoutput-constraintsattacksbeginner

Simple Output Constraint Attacks

Force models to output in constrained formats that bypass output safety filters.

入門

Representation Engineering Attacks

Manipulate internal model representations to alter behavior without prompt modification.

labsrepresentation-engineeringattacksexpert

attackstimelabexperttraininglabs

End-to-End 訓練 Time Attacks

執行a complete training-time attack from 資料投毒 through model deployment to triggered exploitation.

llmopsblue-greendeploymentattacks

藍綠部署攻擊

利用藍綠與 canary 部署策略以操弄流量路由，強制部署遭入侵的模型版本。

llmopsgatewayroutingattacks

模型閘道攻擊

利用模型閘道與路由基礎架構以改道請求、攔截回應或操弄模型選擇邏輯。

llmopsprompt-versioningattacksmanagement

提示詞版本攻擊

利用提示詞管理與版本系統，將對抗性系統提示詞注入生產部署。

llmopsrollbackattacksversioning

回滾攻擊向量

利用模型回滾機制以強制部署已知脆弱版本或破壞服務可用性。

modelstokenizerBPEattacks

分詞器攻擊面

分詞器作為攻擊面,涵蓋字元邊界、Unicode 與詞彙漏洞。

model-deep-divestransformerattentionattacks

Transformer 注意力機制攻擊

針對 Transformer 注意力機制的攻擊,包括注意力偏置與長上下文利用。

attackstypographyadversarialmultimodal

對抗性排版攻擊

利用字型、大小與排版樣式欺騙 OCR 與視覺語言模型的攻擊技巧。

adversarialaudioperturbationattacks

對抗性音訊範例

打造對抗音訊擾動的技術，含心理聲學隱藏、頻域攻擊，以及 over-the-air 對抗音訊。

multimodalaudioinjectionattacks

音訊注入攻擊

透過音訊管道注入惡意指令或對抗性內容,操弄多模態 AI 模型行為。

multimodalcross-modaltransferattacks

跨模態傳遞攻擊

攻擊者如何將對抗樣本從一個模態轉移到另一個模態,以提升攻擊的通用性與可轉移性。

attacksconsistencymultimodal

多模態一致性攻擊

利用不同模態之間一致性需求的矛盾,欺騙多模態 AI 系統。

training-pipelinecontinuous-trainingpipelineattacks

持續訓練管道攻擊

透過串流資料操弄,利用持續學習與線上訓練管道。

training-pipelinedata-poisoningscaleattacks

大規模資料投毒

在大規模下投毒訓練資料,以影響模型跨多種能力的行為。

training-pipelinefederated-learningattacksdistributed

聯邦學習攻擊(訓練管道)

針對聯邦學習設定的攻擊,包括模型投毒、資料推論與聚合操弄。

LoRA 與介面卡層攻擊

LoRA 與介面卡基微調之安全意涵，含安全對齊移除、介面卡投毒、秩操弄攻擊與多介面卡衝突利用。

loraadapterattacks

attackspipelinedistillationknowledgetraining

知識蒸餾安全

知識蒸餾的安全意涵,包括能力萃取與安全對齊轉移。

training-pipelinesupply-chainmodelattacks

模型供應鏈攻擊

從訓練資料到部署的模型供應鏈攻擊向量全面分析。

training-pipelinepre-trainingdataattacks

預訓練資料攻擊

攻擊預訓練資料管道,包括網路爬取投毒與資料策劃操弄。

training-pipelinesynthetic-datapipelineattacks

合成資料管道攻擊(訓練管道)

攻擊用於模型訓練與資料增強的合成資料產生管道。

training-pipelineinfrastructureattackscompute

訓練基礎設施攻擊

攻擊訓練基礎設施,包括 GPU 叢集、分散式訓練與編排系統。

chainingattacksexploitationapiwalkthroughs

API 鏈式利用詳解

詳解代理系統中鏈接多個 API 呼叫以實現多步驟未授權行動的方法。

attackscompetitivewalkthroughwalkthroughsjailbreak

競賽風格越獄技術詳解

Walkthrough of jailbreak techniques used in AI security competitions and CTF events.

attacksinjectionwalkthroughusecomputerwalkthroughs

Computer Use Agent Injection 詳解

Walkthrough of injecting prompts through UI elements and screenshots processed by computer-use agents.

diveattackscontextdeepmanipulationwalkthroughs

上下文操控深度探討

Advanced walkthrough of context window manipulation techniques including attention dilution and instruction priority shifting.

attacksharvestingdatawalkthroughwalkthroughs

Data Harvesting Through LLM Apps

Complete walkthrough of systematic data extraction from LLM applications using various exfiltration channels.

attacksencodingchainbypasswalkthroughwalkthroughs

編碼鏈繞過詳解

Walkthrough of chaining Base64, URL encoding, and Unicode tricks to bypass multi-layer input filters.

attacksmemorywalkthroughpersistencewalkthroughs

Memory Persistence 攻擊詳解

Walkthrough of achieving persistent memory manipulation in agent systems for cross-session influence.

attacksagentsprivilegeescalationwalkthroughwalkthroughs

Agent Privilege Escalation 詳解

Walkthrough of escalating privileges in multi-agent systems through trust chain exploitation.

walkthroughsrole-confusioninstruction-hierarchyattacks

Role Confusion 攻擊詳解

Exploit role confusion between system, user, and assistant messages to override safety instructions.

attacksroleexploitationconfusionwalkthroughs

Role Confusion Exploitation 詳解

Exploit role boundaries in chat APIs by injecting assistant-role messages and system-level instructions.

attackscamouflagesemanticwalkthroughwalkthroughs

語意偽裝詳解

Walkthrough of crafting semantically camouflaged injections that evade both classifiers and human review.

walkthroughssemanticdeceptionattacks

Semantic Deception 攻擊詳解

Craft semantically deceptive prompts that appear benign to classifiers while achieving adversarial objectives.

attackssupplychainpoisoningwalkthroughwalkthroughs

Model Supply Chain Poisoning

Walkthrough of poisoning ML supply chains through dependency confusion, model weight manipulation, and hub attacks.

attacksoptimizationtokenwalkthroughs

Token-Level 攻擊 Optimization 詳解

Walkthrough of optimizing adversarial token sequences for maximum jailbreak effectiveness.

walkthroughsvision-modelattacksmultimodal

視覺模型攻擊詳解

Attack vision-language models through adversarial images with embedded text, perturbations, and visual trojans.

attacksvisionmodelwalkthroughwalkthroughs

Vision Model 攻擊詳解 (Attack 詳解)

Step-by-step walkthrough of visual prompt injection, adversarial images, and OCR exploitation in vision-language models.

attacksxmlinjectionwalkthroughjsonwalkthroughs

XML and JSON Injection in LLM Apps

Walkthrough of exploiting XML and JSON parsing in LLM applications for injection and data manipulation.