# adversarial
標記為「adversarial」的 55 篇文章
頂石專案:設計並舉辦對抗性 ML 競賽
設計、打造並營運奪旗 (CTF) 風格的對抗性 ML 競賽,具備自動化評分、多樣化的挑戰類別,以及即時排行榜。
Capstone:多模態攻擊套件
Capstone 專案:打造針對視覺、音訊與文件多模態 AI 系統的攻擊測試套件。
案例研究:GCG 攻擊與產業回應
分析 Zou et al. 2023 的 GCG 攻擊、產業回應,以及對對抗性穩健性研究的持續影響。
LLM 防禦的對抗性訓練
使用對抗性訓練技術,提升 LLM 對已知攻擊模式的穩健性。
LLM-as-Judge 防禦系統
LLM-as-judge 架構如何評估其他 LLM 輸出之安全性,含循序與平行設計、judge 提示工程,以及攻擊 judge 模型之技術。
密集檢索對抗性攻擊
針對 RAG 與搜尋系統中所使用之密集檢索模型的對抗性攻擊。
密集檢索攻擊
透過構造對目標查詢獲得高相關度分數但內含惡意內容的對抗性段落,攻擊密集檢索系統。
嵌入空間映射攻擊
映射與探測嵌入空間結構以辨識漏洞、聚類邊界與對齊失效。
重新排序器對抗性輸入
為重新排序器製作對抗性輸入,以操縱最終排序順序。
對抗資料集產生器
打造產生多樣對抗資料集的工具,用於 LLM 安全基準測試,包括語意變體與編碼排列。
AI Exploit 開發
對抗後綴生成、無梯度最佳化、規避 WAF 之注入 payload,以及對 AI 系統之 fuzzing 框架。
開發可遷移攻擊
跨模型攻擊技術、量測可遷移性、集成最佳化,以及為 AI 紅隊提供的實務遷移測試方法論。
Token 優化技術
實作 token 層級優化演算法以發掘對抗輸入,包括 GCG、AutoDAN 與自訂梯度型取徑。
通用對抗性觸發語
跨模型通用的對抗性觸發語研究,包括 GCG 及相關梯度式技術。
MITRE ATLAS 導覽
MITRE ATLAS tactics, techniques, and procedures for AI systems. How to use ATLAS for red team engagement planning and map attacks to ATLAS IDs.
規避 AI 詐欺偵測
規避 AI 驅動詐欺偵測系統的技術,包括對抗性交易設計、概念漂移利用、回饋迴圈操縱,以及集成規避策略。
攻擊臨床 AI 系統
臨床 AI 系統的詳細攻擊技術,包含診斷輸出操縱、治療建議投毒、檢傷分級系統利用與對抗性醫療資料設計。
醫療影像 AI 攻擊
醫療影像 AI 系統的對抗攻擊,包含對 X 光、CT、MRI 的擾動、GAN 產生的假醫療影像,以及從診斷影像 API 萃取模型。
法律研究投毒
針對 AI 驅動法律研究平台的對抗性攻擊:引用幻覺利用、判例資料庫投毒、先例操縱,以及針對對造律師 AI 工具的對抗性書狀產生。
媒體深偽偵測 AI 安全
AI 驅動深偽偵測系統的安全與針對偵測模型的對抗攻擊。
對抗性穩健度評估
建構完整的adversarial 穩健度評估 framework,用於評估模型安全姿態.
實作:音訊對抗樣本
動手實作 for crafting 對抗性 audio perturbations that cause speech-to-text models and voice assistants to misinterpret spoken commands, demonstrating attacks on audio AI systems.
Embedding Adversarial Perturbation
Craft 對抗性 inputs that produce target 嵌入 for retrieval manipulation.
Lab: Transfer Attack Development
動手實作 for crafting 對抗性 prompts on open-weight models like Llama that transfer to closed-source models like Claude and GPT-4, using iterative refinement and cross-model evaluation.
Lab: Transfer Attack Development (Advanced Lab)
開發 對抗性 attacks on open-source models that transfer to closed-source models, leveraging weight access for black-box 漏洞利用.
對抗性 Reward 模型 利用
Craft inputs that exploit reward model weaknesses to achieve high safety scores while containing harmful content.
Token Wars: Adversarial Optimization Challenge
Optimize 對抗性 符元s to achieve target model behaviors under strict character limits.
Token Smuggler Extreme: 對抗性 Token Crafting
Craft adversarial token sequences under extreme character limits to achieve target model behaviors.
實作:建構 AI 模糊測試器
建構 a comprehensive fuzzing framework for large 語言模型 that 系統性地 generates malformed, unexpected, and 對抗性 inputs to discover crashes, unexpected behaviors, and safety bypasses.
實驗:自動化對抗提示生成
建構自動化系統,使用突變、交配與選擇策略生成對抗性提示。
嵌入空間攻擊
攻擊 LLM 嵌入層的技術,包括對抗性擾動、嵌入反演與語意空間操縱。
3D 模型對抗性攻擊
針對處理 3D 模型、點雲與空間資料的 AI 系統所進行的對抗性攻擊。
針對 VLM 的對抗性影像擾動
產生對抗性擾動,使視覺語言模型誤判或遵循被注入的指令。
對抗性排版攻擊
利用字型、大小與排版樣式欺騙 OCR 與視覺語言模型的攻擊技巧。
對抗性音訊範例
打造對抗音訊擾動的技術,含心理聲學隱藏、頻域攻擊,以及 over-the-air 對抗音訊。
Audio Modality 攻擊s
Comprehensive attack taxonomy for audio-enabled LLMs: adversarial audio generation, voice-based prompt injection, cross-modal split attacks, and ultrasonic perturbations.
實作:打造音訊對抗範例
使用 Python 音訊處理建立對抗音訊範例之實作,針對 Whisper 轉譯注入文字。
語音辨識攻擊
攻擊自動語音辨識系統,包括轉錄結果與聽感不同的對抗音訊、隱藏語音指令,以及背景音訊注入。
語音與音訊模型的對抗性攻擊
針對語音辨識、語音助理與音訊語言模型(包括隱藏命令與心理聲學遮蔽)製作對抗性音訊的技術。
多模態安全
多模態 AI 系統 (處理影像、音訊、影片與跨模態輸入) 的安全評估,涵蓋視覺語言模型、語音系統、影片分析與跨模態攻擊技術。
醫療影像對抗性攻擊
針對使用醫療影像 (如 X 光、CT 與 MRI) 的 AI 系統所進行的對抗性攻擊。
OCR 對抗性攻擊
透過精心設計的影像使 OCR 系統擷取出對抗性文字,以進行後續的注入攻擊。
文字生成影像模型的對抗性攻擊
理解並評估文字生成影像擴散模型的對抗性攻擊,包括提示詞操控以繞過安全過濾、概念消除攻擊、引導機制擾動,以及訓練資料成員推論。
實驗室:影片模型對抗性攻擊
使用 OpenCV 和 PyTorch 進行影格層面擾動,實作對抗性影片影格的實作實驗室。
Video Frame Injection 攻擊s
Inserting adversarial frames into video to exploit video understanding models: temporal injection, keyframe manipulation, subliminal frame attacks, and detection evasion.
影片理解模型攻擊
透過影格注入、時序操控和對抗性影片生成,攻擊 AI 影片理解系統(如 Gemini 2.5 Pro)的技術。
視覺語言模型攻擊
攻擊視覺語言模型的完整技術,包括 GPT-4o、Claude 4 和 Gemini,涵蓋對抗性圖像、印刷型漏洞利用和多模態越獄。
VLM 的對抗性影像範例
會改變 VLM 行為的像素級擾動,包括針對視覺編碼器的 PGD 攻擊、可遷移對抗影像,以及 patch 攻擊。
Typographic Adversarial 攻擊s
How text rendered in images influences VLM behavior: adversarial typography, font-based prompt injection, visual instruction hijacking, and defenses against typographic manipulation.
越獄技術
繞過大型語言模型安全對齊的常見模式與進階技術,包含角色扮演、編碼技巧、多範例攻擊與基於梯度的方法。
後綴操控攻擊
於使用者輸入後附加最佳化的對抗性後綴,利用模型延續傾向產出攻擊者期望的輸出。
符元層級對抗攻擊
使用基於梯度的最佳化與符元操控,發掘能可靠觸發不安全模型行為的對抗性後綴。
通用對抗性觸發
發掘並部署能跨多個大型語言模型家族可靠覆寫安全對齊的通用對抗性觸發序列,包含基於梯度的搜尋、轉移攻擊與防禦規避。
攻擊載荷參考
AI 紅隊演練常見攻擊載荷的分類參考,包含提示詞注入、越獄、資料萃取與對抗輸入,附有效性備註。
GCG Adversarial Suffix 攻擊 詳解
Complete walkthrough of implementing the Greedy Coordinate Gradient adversarial suffix attack.