# evasion

Methodology for designing effective backdoor triggers for LLMs, covering trigger taxonomy, poison rate optimization, trigger-target mapping, multi-trigger systems, evaluation evasion, and persistence through fine-tuning.

backdoortrigger-designtrojantraining-attackspersistenceevasion

專家

訓練資料浮水印攻擊

移除或繞過嵌入訓練資料中浮水印的技巧。

data-trainingwatermarkdetectionevasion

進階

輸入/輸出過濾系統

深入探討輸入與輸出掃描的 regex、ML 分類器與嵌入式過濾器,並針對每種類型提供系統性繞過技術。

input-filteringoutput-filteringregexml-classifierembeddingbypassevasion

專家

嵌入浮水印攻擊

攻擊或繞過嵌入浮水印機制,以隱匿模型盜竊、重新訓練或未授權使用的證據。

embeddingwatermarkingdetectionevasion

進階

微調中的評估規避

打造能通過標準安全評估但內含於特定條件下啟動之隱藏不安全行為的微調模型。

fine-tuningevaluationevasionsafety-testing

進階

對抗式 ML：核心概念

對抗式機器學習的歷史與基本原理——擾動攻擊、逃避與投毒、穩健性——將古典對抗式 ML 銜接至 LLM 特有攻擊。

adversarial-mlfundamentalsevasionpoisoningintermediate

中級

AI 詐欺偵測規避

透過對抗性交易設計規避 AI 驅動詐欺偵測系統的技術。

industry-verticalsfinancefraud-detectionevasion

進階

規避 AI 詐欺偵測

規避 AI 驅動詐欺偵測系統的技術，包括對抗性交易設計、概念漂移利用、回饋迴圈操縱，以及集成規避策略。

fraud-detectionevasionadversarialtransactionsconcept-driftfinancial

進階

語意注入攻擊

保留語意的對抗性攻擊:以語意等價但結構不同的表述方式編碼惡意意圖,藉以規避語法層偵測。

semantic-injectionevasionparaphrasingmeaning-preservingdetection-bypass

進階

感知防禦的注入設計

設計能考量並規避已知防禦機制的提示詞注入。

injection-researchdefense-awaredesignevasion

進階

Basic Classifier Evasion

Evade basic input/output classifiers using paraphrasing, synonym substitution, and formatting tricks.

labsclassifierevasionbeginner

入門

實作：防禦繞過基礎

學習 basic 技術 to bypass simple LLM defenses including keyword filters, instruction reinforcement, and output validators using encoding, reformulation, and indirect approaches.

labdefense-bypassevasionfiltersbeginnerhands-on

入門

Classifier Gauntlet: 10-Stage Evasion

繞過10 progressively harder input classifiers using different evasion techniques at each stage.

labsctfclassifierevasion

進階

實驗室: Azure Content Filter Evasion

動手實驗室,主題為mapping與testing Azure OpenAI Service content filtering categories,severity levels,bypass techniques.

labcloudazurecontent-filterevasioncloud-ai

中級

實驗室: Chunking 利用

動手實驗室,主題為crafting documents that split across chunks in ways that hide malicious content from chunk-level filtering while maintaining attack effectiveness.

labragchunkingevasiondata-attacks

中級

ML Classifier Evasion 實驗室

發展payloads that evade machine learning-based input classifiers through adversarial text perturbation.

classifierintermediateevasionlablabs

中級

實驗室: Encoding Evasion Techniques

動手lab using Base64,ROT13,Unicode normalization,custom encoding schemes to evade input filters與safety classifiers in language model systems.

labencodingevasionobfuscationfilters

中級

LLM Guard Evasion Techniques

發展evasion techniques 對抗 LLM Guard input scanners與output detectors.

labsllm-guardevasionintermediate

中級

多模態防禦繞過

繞過多模態 AI 系統所部署之安全過濾器與內容審核的技術。

multimodaldefense-bypasstechniquesevasion

進階

多模態浮水印攻擊

從多模態 AI 系統的輸出中移除或偽造浮水印的攻擊。

multimodalwatermarkevasion

進階

語言切換

透過切換到低資源語言、混合語言或使用音譯以規避過濾器，利用安全訓練的語言特定落差。

language-switchingmultilingualevasionlow-resourcered-teaming

中級

多語言注入攻擊

利用語言多樣性與翻譯不一致，打造規避以英語為中心之安全過濾器的注入載荷。

prompt-injectionmultilingualtranslationevasion

中級

進階載荷混淆

提示詞注入載荷的進階混淆技術，包含編碼鏈與語意偽裝。

prompt-injectionobfuscationencodingevasion

進階

載荷分割

將惡意指令拆分至多則訊息、變數或資料來源，以規避單點偵測，同時讓模型在處理過程中重新組合完整載荷。

prompt-injectionpayload-splittingfragmentationevasionred-teaming

中級

語意偽裝攻擊

使用語意相似度與改寫技術將對抗指令偽裝為無害內容，同時保留攻擊效果。

prompt-injectionsemantic-camouflageparaphrasingevasion

中級

Unicode 與同形字注入

利用 Unicode 正規化不一致、同形字替換與隱形字元，建構匿蹤的注入載荷。

prompt-injectionunicodehomoglyphinvisible-charsevasion

中級

AI 攻擊的反鑑識

在 AI 紅隊行動期間與之後規避鑑識分析的技術，包括日誌操弄與行為正規化。

tradecraftcounter-forensicsevasionanti-analysis

進階

規避 AI 分類器的技術

規避 LLM 應用中輸入/輸出安全分類器的進階技術。

tradecraftevasionclassifierstechniques

進階

Encoding-Based Evasion

Using base64, ROT13, hexadecimal, Unicode, and other encoding schemes to evade input detection systems and bypass content filters in LLM applications.

prompt-injectionencodingbase64rot13unicodeevasionred-teamingintermediate

中級

Encoding Chain 攻擊詳解

Chain multiple encoding transformations to bypass input filters that only decode one layer of encoding.

walkthroughsencodingchain-attacksevasion

中級

Payload Obfuscation Techniques

Methods for disguising prompt injection payloads through encoding, splitting, substitution, and other obfuscation techniques to bypass input filters and detection systems.

prompt-injectionobfuscationevasionpayload-craftingred-teamingintermediate

中級

Regex Filter Bypass 詳解

Systematically bypass regex-based input filters using Unicode tricks, encoding, and pattern-specific evasion.

walkthroughsregexfilter-bypassevasion

中級

Typography Injection in Images

Using rendered text with specific fonts, styles, and typographic techniques in images to inject prompts into vision-language models while evading detection.

multimodaltypographyprompt-injectionvisionevasion

中級

Semantic Obfuscation 詳解

Walkthrough of semantically obfuscating adversarial payloads so they appear benign to both classifiers and humans.

walkthroughssemantic-obfuscationevasiontechnique

進階

Building Converter Pipelines for Payload Transformation in PyRIT

Intermediate walkthrough on using PyRIT's converter system to transform attack payloads through encoding, translation, paraphrasing, and other obfuscation techniques to evade input filters.

pyritconverterspayload-transformationevasionwalkthrough

中級

Testing 提示詞注入防禦s with Rebuff

導覽 for using Rebuff to test and evaluate prompt injection detection capabilities, covering installation, detection pipeline analysis, adversarial evasion testing, custom rule development, and benchmarking detection accuracy.

rebuffprompt-injectiondetectiondefense-testingevasionwalkthrough

中級

# evasion

Microsoft Defender for AI(AI 防禦)

AI 程式碼檢閱繞過技術

月度競賽:隱匿行動

資料去重攻擊

浮水印與指紋規避

Backdoor Trigger Design

訓練資料浮水印攻擊

輸入/輸出過濾系統

嵌入浮水印攻擊

微調中的評估規避

對抗式 ML：核心概念

AI 詐欺偵測規避

規避 AI 詐欺偵測

語意注入攻擊

感知防禦的注入設計

Basic Classifier Evasion

實作：防禦繞過基礎

Classifier Gauntlet: 10-Stage Evasion

實驗室: Azure Content Filter Evasion

實驗室: Chunking 利用

ML Classifier Evasion 實驗室

實驗室: Encoding Evasion Techniques

LLM Guard Evasion Techniques

多模態防禦繞過

多模態浮水印攻擊

語言切換

多語言注入攻擊

進階載荷混淆

載荷分割

語意偽裝攻擊

Unicode 與同形字注入

AI 攻擊的反鑑識

規避 AI 分類器的技術

Encoding-Based Evasion

Encoding Chain 攻擊 詳解

Payload Obfuscation Techniques

Regex Filter Bypass 詳解

Typography Injection in Images

Semantic Obfuscation 詳解

Building Converter Pipelines for Payload Transformation in PyRIT

Testing 提示詞注入 防禦s with Rebuff

# evasion

Microsoft Defender for AI(AI 防禦)

AI 程式碼檢閱繞過技術

月度競賽:隱匿行動

資料去重攻擊

浮水印與指紋規避

Backdoor Trigger Design

訓練資料浮水印攻擊

輸入/輸出過濾系統

嵌入浮水印攻擊

微調中的評估規避

對抗式 ML：核心概念

AI 詐欺偵測規避

規避 AI 詐欺偵測

語意注入攻擊

感知防禦的注入設計

Basic Classifier Evasion

實作：防禦繞過基礎

Classifier Gauntlet: 10-Stage Evasion

實驗室: Azure Content Filter Evasion

實驗室: Chunking 利用

ML Classifier Evasion 實驗室

實驗室: Encoding Evasion Techniques

LLM Guard Evasion Techniques

多模態防禦繞過

多模態浮水印攻擊

語言切換

多語言注入攻擊

進階載荷混淆

載荷分割

語意偽裝攻擊

Unicode 與同形字注入

AI 攻擊的反鑑識

規避 AI 分類器的技術

Encoding-Based Evasion

Encoding Chain 攻擊 詳解

Payload Obfuscation Techniques

Regex Filter Bypass 詳解

Encoding Chain 攻擊詳解

Testing 提示詞注入防禦s with Rebuff

Encoding Chain 攻擊詳解

Testing 提示詞注入防禦s with Rebuff