# attacks
標記為「attacks」的 94 篇文章
Phidata 代理攻擊
Phidata 代理框架之安全分析,含知識庫投毒與工具濫用。
記憶體上下文視窗攻擊
針對上下文視窗管理的攻擊,包括逐出操縱、符元預算耗盡與上下文位置利用。
強制函式呼叫
強迫代理在不適當情境下呼叫函式、或強制特定函式路徑以繞過決策邏輯的攻擊。
工具釐清攻擊
利用工具選擇之歧義,將函式呼叫重導至非預期之工具。
A2A 任務注入
向 A2A 代理注入未授權任務或修改既有任務以達成對抗目標的攻擊。
跨代理記憶體攻擊
在多代理系統中跨代理傳播對抗性記憶、共享記憶體投毒與記憶體信任邊界違反的攻擊。
AI 攻擊歸因
基於攻擊模式與指標將 AI 攻擊歸因於威脅行為者的技術。
多模態攻擊評估
評估涵蓋image injection、audio 攻擊、cross-modal 利用、多模態防禦 bypass。
AI 結對程式設計攻擊
在 AI 結對程式設計情境中針對開發者的攻擊,以影響程式碼決策。
程式碼翻譯攻擊
在 LLM 驅動的程式語言間翻譯過程中引入漏洞。
GitHub Copilot 注入攻擊
針對 GitHub Copilot 與相似程式助理的注入攻擊。
IDE 擴充功能攻擊
透過惡意的 AI 驅動 IDE 擴充功能發動攻擊。
資料投毒策略
大規模影響模型行為的訓練資料投毒綜合策略。
資料集推論攻擊
透過分析模型行為推論訓練資料集的屬性。
梯度洩漏攻擊
從聯邦與協同學習情境中的梯度更新擷取訓練資料。
標籤翻轉攻擊
標籤翻轉攻擊的實務技巧及其對不同機器學習架構的效能。
AI 浮水印與攻擊
當前針對模型輸出與訓練資料的 AI 浮水印方案、其安全屬性,以及已知可移除、偽造或規避浮水印的攻擊。
模型反演攻擊
從模型梯度與預測中還原機器學習各情境下的私有訓練資料。
隱私與資料保護攻擊
對 AI 系統之隱私攻擊概觀,含資料提取、成員推論與模型反轉,配法規意涵與紅隊方法論。
成員推論攻擊
判定特定資料是否被用來訓練 AI 模型的技術,包括陰影模型途徑、基於損失的推論、LiRA 與實務實作指引。
模型反演攻擊(資料訓練)
從模型輸出重建訓練資料的技術,包括基於梯度的反演、生成式模型反演,以及對影像與語言模型的隱私意涵。
對隱私保護機器學習的攻擊
針對差分隱私與同態加密等隱私保護機器學習技術的攻擊。
屬性推論攻擊
透過分析模型行為與輸出來推論訓練資料集的全域屬性。
交叉編碼器重新排序攻擊
針對檢索管線中使用的交叉編碼器重新排序模型之攻擊手法。
跨語言嵌入攻擊
利用跨語言嵌入空間繞過特定語言的安全過濾器,並透過翻譯落差注入對抗性內容。
密集檢索對抗性攻擊
針對 RAG 與搜尋系統中所使用之密集檢索模型的對抗性攻擊。
嵌入漂移攻擊
透過反覆的小幅度操縱,使向量儲存中的嵌入逐漸產生漂移。
嵌入反演攻擊
從嵌入向量反演出原始文字或 PII 的攻擊。
多向量檢索攻擊
針對 ColBERT 等多向量檢索系統的攻擊,利用其逐符元互動評分機制。
多模態嵌入攻擊
針對跨文字、影像與音訊對齊的多模態嵌入之攻擊。
向量資料庫注入
透過中繼資料、過濾器與管理介面對向量資料庫進行注入攻擊。
適配器層攻擊向量
針對參數高效適配器層(包括 LoRA、QLoRA 與 prefix tuning 模組)之攻擊向量的完整分析。
適配器投毒攻擊
對公開共享的適配器與 LoRA 權重進行投毒,以危害下游使用者。
透過微調進行對齊移除
以最少資料透過針對性微調移除安全對齊的技術。
憲法式 AI 訓練攻擊
透過操控憲法原則、批判模型或自我改進迴圈,攻擊憲法式 AI 與 RLAIF 訓練管線。
DPO 對齊攻擊
透過打造對抗性偏好配對攻擊 Direct Preference Optimization 訓練,在外觀合法的同時細微地改變模型行為。
少樣本反調優攻擊
透過針對性的少樣本反調優,以極少微調資料移除安全對齊。
微調攻擊的最小資料量
有效微調攻擊所需的最小資料集規模研究。
LoRA 攻擊技術
利用 Low-Rank Adaptation 微調進行安全對齊移除與後門植入。
多任務微調攻擊
利用多任務微調在安全關鍵與效用導向訓練目標之間製造干擾。
語意相似度與向量搜尋攻擊
Cosine 相似度與最近鄰搜尋之運作方式,以及攻擊者如何經由對抗文件、embedding 碰撞與門檻繞過利用向量資料庫。
分詞與其安全意涵
BPE 與 SentencePiece 分詞器如何運作,以及分詞器行為如何建立可利用攻擊面,包含邊界攻擊、同形字與編碼技巧。
AI 攻擊分類
依目標、技術與影響組織之 AI 攻擊完整分類——為紅隊規劃與報告提供共享詞彙。
前沿模型的對抗性強健性
針對前沿語言模型的對抗性強健性研究現況與待解的開放問題。
多模態推論攻擊
針對多模態模型的攻擊,包括跨模態注入與感知操弄。
推理模型攻擊
推理啟用 LLM 之安全風險概觀:思維鏈模型如何引入新攻擊面、利用原語與防禦挑戰。
驗證器與獎勵模型攻擊
攻擊推理模型中使用之過程獎勵模型、結果獎勵模型與驗證系統:獎勵駭客、驗證器-生成器缺口與博弈驗證步驟。
偏好最佳化攻擊
針對 DPO、IPO 與相關偏好最佳化方法的攻擊研究。
合成人格攻擊
以合成人格在多代理系統中建立信任並進行利用的攻擊。
測試時計算攻擊
針對測試時計算擴展的攻擊研究,包括反思漏洞。
GPU 叢集攻擊面
GPU 叢集的攻擊面分析,包含多租戶隔離、記憶體共享與排程攻擊。
模型服務自動擴展攻擊
針對模型服務自動擴展的攻擊,包含資源耗盡、冷啟動與成本攻擊。
模型服務基礎設施攻擊
模型服務基礎設施的攻擊,包含推論劫持、請求走私與資源耗盡。
Lab: Gradient-Based Attack Implementation
實作 梯度-based 對抗性 attacks on open-weight models including PGD, FGSM adapted for text inputs.
Simple Output Constraint Attacks
Force models to output in constrained formats that bypass output safety filters.
Representation Engineering Attacks
Manipulate internal model representations to alter behavior without prompt modification.
End-to-End 訓練 Time Attacks
執行a complete training-time attack from 資料投毒 through model deployment to triggered exploitation.
藍綠部署攻擊
利用藍綠與 canary 部署策略以操弄流量路由,強制部署遭入侵的模型版本。
模型閘道攻擊
利用模型閘道與路由基礎架構以改道請求、攔截回應或操弄模型選擇邏輯。
提示詞版本攻擊
利用提示詞管理與版本系統,將對抗性系統提示詞注入生產部署。
回滾攻擊向量
利用模型回滾機制以強制部署已知脆弱版本或破壞服務可用性。
分詞器攻擊面
分詞器作為攻擊面,涵蓋字元邊界、Unicode 與詞彙漏洞。
Transformer 注意力機制攻擊
針對 Transformer 注意力機制的攻擊,包括注意力偏置與長上下文利用。
對抗性排版攻擊
利用字型、大小與排版樣式欺騙 OCR 與視覺語言模型的攻擊技巧。
對抗性音訊範例
打造對抗音訊擾動的技術,含心理聲學隱藏、頻域攻擊,以及 over-the-air 對抗音訊。
音訊注入攻擊
透過音訊管道注入惡意指令或對抗性內容,操弄多模態 AI 模型行為。
跨模態傳遞攻擊
攻擊者如何將對抗樣本從一個模態轉移到另一個模態,以提升攻擊的通用性與可轉移性。
多模態一致性攻擊
利用不同模態之間一致性需求的矛盾,欺騙多模態 AI 系統。
持續訓練管道攻擊
透過串流資料操弄,利用持續學習與線上訓練管道。
大規模資料投毒
在大規模下投毒訓練資料,以影響模型跨多種能力的行為。
聯邦學習攻擊(訓練管道)
針對聯邦學習設定的攻擊,包括模型投毒、資料推論與聚合操弄。
LoRA 與介面卡層攻擊
LoRA 與介面卡基微調之安全意涵,含安全對齊移除、介面卡投毒、秩操弄攻擊與多介面卡衝突利用。
知識蒸餾安全
知識蒸餾的安全意涵,包括能力萃取與安全對齊轉移。
模型供應鏈攻擊
從訓練資料到部署的模型供應鏈攻擊向量全面分析。
預訓練資料攻擊
攻擊預訓練資料管道,包括網路爬取投毒與資料策劃操弄。
合成資料管道攻擊(訓練管道)
攻擊用於模型訓練與資料增強的合成資料產生管道。
訓練基礎設施攻擊
攻擊訓練基礎設施,包括 GPU 叢集、分散式訓練與編排系統。
API 鏈式利用詳解
詳解代理系統中鏈接多個 API 呼叫以實現多步驟未授權行動的方法。
競賽風格越獄技術詳解
Walkthrough of jailbreak techniques used in AI security competitions and CTF events.
Computer Use Agent Injection 詳解
Walkthrough of injecting prompts through UI elements and screenshots processed by computer-use agents.
上下文操控深度探討
Advanced walkthrough of context window manipulation techniques including attention dilution and instruction priority shifting.
Data Harvesting Through LLM Apps
Complete walkthrough of systematic data extraction from LLM applications using various exfiltration channels.
編碼鏈繞過詳解
Walkthrough of chaining Base64, URL encoding, and Unicode tricks to bypass multi-layer input filters.
Memory Persistence 攻擊 詳解
Walkthrough of achieving persistent memory manipulation in agent systems for cross-session influence.
Agent Privilege Escalation 詳解
Walkthrough of escalating privileges in multi-agent systems through trust chain exploitation.
Role Confusion 攻擊 詳解
Exploit role confusion between system, user, and assistant messages to override safety instructions.
Role Confusion Exploitation 詳解
Exploit role boundaries in chat APIs by injecting assistant-role messages and system-level instructions.
語意偽裝詳解
Walkthrough of crafting semantically camouflaged injections that evade both classifiers and human review.
Semantic Deception 攻擊 詳解
Craft semantically deceptive prompts that appear benign to classifiers while achieving adversarial objectives.
Model Supply Chain Poisoning
Walkthrough of poisoning ML supply chains through dependency confusion, model weight manipulation, and hub attacks.
Token-Level 攻擊 Optimization 詳解
Walkthrough of optimizing adversarial token sequences for maximum jailbreak effectiveness.
視覺模型攻擊詳解
Attack vision-language models through adversarial images with embedded text, perturbations, and visual trojans.
Vision Model 攻擊 詳解 (Attack 詳解)
Step-by-step walkthrough of visual prompt injection, adversarial images, and OCR exploitation in vision-language models.
XML and JSON Injection in LLM Apps
Walkthrough of exploiting XML and JSON parsing in LLM applications for injection and data manipulation.