# evasion
標記為「evasion」的 41 篇文章
Microsoft Defender for AI(AI 防禦)
Microsoft Defender for AI 的能力、部署與威脅偵測分析,涵蓋 Azure OpenAI、生成式 AI 工作負載與對抗性濫用偵測。
AI 程式碼檢閱繞過技術
精心設計程式變更以規避 AI 驅動的安全審查工具,同時引入漏洞或後門的技術。
月度競賽:隱匿行動
月度競賽挑戰參與者達成目標的同時,規避日益精密的監控系統偵測。
資料去重攻擊
利用資料去重處理,繞過過濾並引入惡意訓練資料。
浮水印與指紋規避
深入探討偵測與移除輸出浮水印、退化權重浮水印、規避模型指紋辨識、建立出處剝離管線,以及理解模型所有權驗證的法律格局。
Backdoor Trigger Design
Methodology for designing effective backdoor triggers for LLMs, covering trigger taxonomy, poison rate optimization, trigger-target mapping, multi-trigger systems, evaluation evasion, and persistence through fine-tuning.
訓練資料浮水印攻擊
移除或繞過嵌入訓練資料中浮水印的技巧。
輸入/輸出過濾系統
深入探討輸入與輸出掃描的 regex、ML 分類器與嵌入式過濾器,並針對每種類型提供系統性繞過技術。
嵌入浮水印攻擊
攻擊或繞過嵌入浮水印機制,以隱匿模型盜竊、重新訓練或未授權使用的證據。
微調中的評估規避
打造能通過標準安全評估但內含於特定條件下啟動之隱藏不安全行為的微調模型。
對抗式 ML:核心概念
對抗式機器學習的歷史與基本原理——擾動攻擊、逃避與投毒、穩健性——將古典對抗式 ML 銜接至 LLM 特有攻擊。
AI 詐欺偵測規避
透過對抗性交易設計規避 AI 驅動詐欺偵測系統的技術。
規避 AI 詐欺偵測
規避 AI 驅動詐欺偵測系統的技術,包括對抗性交易設計、概念漂移利用、回饋迴圈操縱,以及集成規避策略。
語意注入攻擊
保留語意的對抗性攻擊:以語意等價但結構不同的表述方式編碼惡意意圖,藉以規避語法層偵測。
感知防禦的注入設計
設計能考量並規避已知防禦機制的提示詞注入。
Basic Classifier Evasion
Evade basic input/output classifiers using paraphrasing, synonym substitution, and formatting tricks.
實作:防禦繞過基礎
學習 basic 技術 to bypass simple LLM defenses including keyword filters, instruction reinforcement, and output validators using encoding, reformulation, and indirect approaches.
Classifier Gauntlet: 10-Stage Evasion
繞過10 progressively harder input classifiers using different evasion techniques at each stage.
實驗室: Azure Content Filter Evasion
動手實驗室,主題為mapping與testing Azure OpenAI Service content filtering categories,severity levels,bypass techniques.
實驗室: Chunking 利用
動手實驗室,主題為crafting documents that split across chunks in ways that hide malicious content from chunk-level filtering while maintaining attack effectiveness.
ML Classifier Evasion 實驗室
發展payloads that evade machine learning-based input classifiers through adversarial text perturbation.
實驗室: Encoding Evasion Techniques
動手lab using Base64,ROT13,Unicode normalization,custom encoding schemes to evade input filters與safety classifiers in language model systems.
LLM Guard Evasion Techniques
發展evasion techniques 對抗 LLM Guard input scanners與output detectors.
多模態防禦繞過
繞過多模態 AI 系統所部署之安全過濾器與內容審核的技術。
多模態浮水印攻擊
從多模態 AI 系統的輸出中移除或偽造浮水印的攻擊。
語言切換
透過切換到低資源語言、混合語言或使用音譯以規避過濾器,利用安全訓練的語言特定落差。
多語言注入攻擊
利用語言多樣性與翻譯不一致,打造規避以英語為中心之安全過濾器的注入載荷。
進階載荷混淆
提示詞注入載荷的進階混淆技術,包含編碼鏈與語意偽裝。
載荷分割
將惡意指令拆分至多則訊息、變數或資料來源,以規避單點偵測,同時讓模型在處理過程中重新組合完整載荷。
語意偽裝攻擊
使用語意相似度與改寫技術將對抗指令偽裝為無害內容,同時保留攻擊效果。
Unicode 與同形字注入
利用 Unicode 正規化不一致、同形字替換與隱形字元,建構匿蹤的注入載荷。
AI 攻擊的反鑑識
在 AI 紅隊行動期間與之後規避鑑識分析的技術,包括日誌操弄與行為正規化。
規避 AI 分類器的技術
規避 LLM 應用中輸入/輸出安全分類器的進階技術。
Encoding-Based Evasion
Using base64, ROT13, hexadecimal, Unicode, and other encoding schemes to evade input detection systems and bypass content filters in LLM applications.
Encoding Chain 攻擊 詳解
Chain multiple encoding transformations to bypass input filters that only decode one layer of encoding.
Payload Obfuscation Techniques
Methods for disguising prompt injection payloads through encoding, splitting, substitution, and other obfuscation techniques to bypass input filters and detection systems.
Regex Filter Bypass 詳解
Systematically bypass regex-based input filters using Unicode tricks, encoding, and pattern-specific evasion.
Typography Injection in Images
Using rendered text with specific fonts, styles, and typographic techniques in images to inject prompts into vision-language models while evading detection.
Semantic Obfuscation 詳解
Walkthrough of semantically obfuscating adversarial payloads so they appear benign to both classifiers and humans.
Building Converter Pipelines for Payload Transformation in PyRIT
Intermediate walkthrough on using PyRIT's converter system to transform attack payloads through encoding, translation, paraphrasing, and other obfuscation techniques to evade input filters.
Testing 提示詞注入 防禦s with Rebuff
導覽 for using Rebuff to test and evaluate prompt injection detection capabilities, covering installation, detection pipeline analysis, adversarial evasion testing, custom rule development, and benchmarking detection accuracy.