# bypass

agentic-exploitationmcpauthenticationbypass

MCP Authentication Bypass Techniques (Agentic Exploitation)

Bypassing MCP server authentication and authorization mechanisms through token manipulation and scope abuse.

agentic-exploitationhuman-in-loopbypassworkflow

Human-in-the-Loop Bypass

Techniques for bypassing human approval steps in agent workflows through urgency injection and stealth.

agentic-exploitationapproval-workflowbypassgovernance

Approval Workflow Bypass Techniques

Techniques for bypassing human and automated approval workflows in governed agent systems.

assessmentjailbreakingbypasssafety-trainingred-teaming

Jailbreaking Techniques Assessment

Test your knowledge of LLM jailbreaking methods, bypass strategies, and the mechanics behind safety training circumvention with 10 intermediate-level questions.

content-moderationtrust-safetybypass

Content Moderation System Attacks

Attacking AI-powered content moderation systems. Adversarial content that bypasses classifiers, evasion techniques for text and image filters, and the security implications of unreliable moderation at platform scale.

code-genreviewbypassevasion

AI Code Review Bypass Techniques

Techniques for crafting code changes that evade AI-powered security review tools while introducing vulnerabilities or backdoors.

guardrailsarchitecturesafety-layerspre-processingpost-processingbypass

Guardrails & Safety Layer Architecture

How guardrail systems are architecturally designed, including pre-processing, in-processing, and post-processing layers, common design patterns, and where each layer can be bypassed.

input-filteringoutput-filteringregexml-classifierembeddingbypassevasion

Input/Output Filtering Systems

Deep dive into regex, ML classifier, and embedding-based filters for both input scanning and output scanning, with systematic bypass techniques for each type.

llm-guardprotect-aipii-detectiontoxicitybypassintermediate

LLM Guard and Protect AI Guardian

Input/output scanning, PII detection, toxicity filtering, integration patterns, and bypass techniques for LLM Guard and the Protect AI Guardian ecosystem.

nemo-guardrailsnvidiacolangguardrailsbypassintermediate

NVIDIA NeMo Guardrails

Architecture, configuration, Colang programming, integration patterns, and bypass techniques for NVIDIA's open-source NeMo Guardrails framework.

prompt-shieldinjection-detectionazureclassifierbypassfine-tuning

Prompt Shields & Injection Detection

How Azure Prompt Shield and dedicated injection detection models work, their detection patterns based on fine-tuned classifiers, and systematic approaches to bypassing them.

Lab: Systematically Bypassing Guardrails

Hands-on lab for methodically probing, classifying, and bypassing input/output guardrails in production AI systems using a structured red team workflow.

embeddingvector-dbaccess-controlbypass

Vector DB Access Control Bypass Techniques

Techniques for bypassing vector database access controls including namespace escaping, metadata injection, and query manipulation.

fine-tuningAPIrate-limitbypass

Fine-Tuning API Security Bypass

Techniques for bypassing safety checks and rate limits in cloud-hosted fine-tuning APIs to submit adversarial training data at scale.

instructionfinesafetybypasstuning

Instruction Tuning Safety Bypass

Using instruction tuning to selectively bypass safety mechanisms while maintaining model capability.

frontierconstitutional-aibypass

Constitutional AI Bypass Techniques

Analyzing and bypassing constitutional AI training through adversarial constitutions and principle manipulation.

labsconstitutional-aibypassadvanced

Lab: Constitutional AI Bypass Techniques

Test and bypass Constitutional AI safety mechanisms by exploiting the critique-revision training methodology.

Lab: Chaining Guardrail Bypasses

Advanced lab on identifying, isolating, and chaining multiple guardrail bypass techniques to defeat layered defense systems in production LLM applications.

labsconstitutional-classifiersbypassadvanced

Constitutional Classifier Bypass

Develop techniques to bypass Anthropic-style constitutional classifiers through adversarial input crafting.

labsragaccess-controlbypassadvanced

RAG Access Control Bypass

Bypass document-level access controls in enterprise RAG systems through query manipulation and context injection.

labdefense-evasionfiltersbypass

Lab: Basic Defense Evasion

Encounter and bypass basic LLM defenses including keyword filters, content classifiers, and input preprocessing through encoding tricks, synonym substitution, and payload splitting.

labencodingbypasscontent-filtersbeginner

Lab: Encoding Bypasses

Test Base64, ROT13, hex, and Unicode encoding techniques to evade LLM content filters while preserving the semantic meaning of adversarial payloads.

labsencodingbypassunicodebeginner

Character Encoding Bypass Techniques

Bypass input filters using Unicode normalization, homoglyph substitution, and mixed-script encoding.

Guardrail Olympics: Multi-Framework Bypass

Bypass guardrail implementations from NeMo, LLM Guard, Rebuff, and custom classifiers.

labsctfguardrailsbypass

labencodingbypassobfuscationsystematic-testingintermediate

Lab: Encoding Bypass Lab

Hands-on lab for systematically testing Base64, ROT13, Unicode homoglyph, hexadecimal, and combined encoding bypasses against LLM safety filters with measured success rates.

intermediatebypasslablanguagelabsmulti

Multi-Language Safety Bypass Lab

Exploit gaps in safety training coverage across languages to bypass safety mechanisms using code-switching.

intermediatebypassoutputlabstructuredlabs

Structured Output Safety Bypass

Use JSON mode and structured output constraints to extract information that would be refused in free-form responses.

labtranslationbypassmultilinguallow-resource

Lab: Language Translation Bypass

Hands-on lab exploiting language translation capabilities to bypass safety filters by submitting prompts in low-resource languages, code-switching, and using transliteration tricks.

labsnemo-guardrailsbypassintermediate

NeMo Guardrails Bypass Techniques

Test and bypass NVIDIA NeMo Guardrails configurations using known evasion techniques.

labsoutput-filterbypassencodingintermediate

Output Filter Bypass via Encoding

Bypass output safety filters by instructing the model to encode responses in Base64, hex, or custom schemes.

prompt-injectionencodingbypassobfuscation

Advanced Encoding Chain Attacks (Prompt Injection)

Deep dive into chaining multiple encoding schemes to create injection payloads that bypass layered input filters and content classifiers.

prompt-injectionmultilinguallanguagebypass

Multilingual Injection Attacks

Exploiting language diversity and translation inconsistencies to craft injection payloads that evade English-centric safety filters.

prompt-injectionrole-escalationprivilegebypass

Role Escalation via Injection

Techniques for escalating from user-level to system-level instruction authority through carefully crafted injection sequences.

infrastructureapirate-limitingbypassred-teaming

API Rate Limit Bypass

Techniques to bypass API rate limiting on LLM services, including header manipulation, distributed requests, authentication rotation, and endpoint discovery.

attacksencodingchainbypasswalkthroughwalkthroughs

Encoding Chain Bypass Walkthrough

Walkthrough of chaining Base64, URL encoding, and Unicode tricks to bypass multi-layer input filters.

walkthroughsunicodenormalizationbypass

Unicode Normalization Bypass Walkthrough

Step-by-step guide to exploiting Unicode normalization differences between input filters and model tokenizers.

agent-memoryisolationbypass

記憶體 Isolation Bypass Techniques

Bypassing user-level and session-level memory isolation to access memories from other users or sessions.

MCP Authentication Bypass Techniques

Analysis of authentication and authorization bypass vectors in MCP server implementations including token replay and session hijacking.

mcpauthenticationbypass

agentic-exploitationmcpauthenticationbypass

MCP Authentication Bypass Techniques (代理式利用ation)

Bypassing MCP server authentication and authorization mechanisms through token manipulation and scope abuse.

agentic-exploitationhuman-in-loopbypassworkflow

Human-in-the-Loop Bypass

Techniques for bypassing human approval steps in agent workflows through urgency injection and stealth.

agentic-exploitationapproval-workflowbypassgovernance

Approval Workflow Bypass Techniques

Techniques for bypassing human and automated approval workflows in governed agent systems.

content-moderationtrust-safetybypass

內容審查系統攻擊

攻擊 AI 驅動之內容審查系統。繞過分類器之對抗內容、為文字與圖像過濾器之逃避技術，與於平台規模不可靠審查之安全意涵。

code-genreviewbypassevasion

AI Code Review Bypass Techniques

Techniques for crafting code changes that evade AI-powered security review tools while introducing vulnerabilities or backdoors.

guardrailsarchitecturesafety-layerspre-processingpost-processingbypass

防護機制與安全層架構

防護系統在架構上如何設計，包括前置處理、推論中處理與後置處理層、常見設計模式，以及各層可被繞過之處。

input-filteringoutput-filteringregexml-classifierembeddingbypassevasion

Input/Output Filtering Systems

Deep dive into regex, ML classifier, and embedding-based filters for both input scanning and output scanning, with systematic bypass techniques for each type.

llm-guardprotect-aipii-detectiontoxicitybypassintermediate

LLM Guard and Protect AI Guardian

Input/output scanning, PII detection, toxicity filtering, integration patterns, and bypass techniques for LLM Guard and the Protect AI Guardian ecosystem.

nemo-guardrailsnvidiacolangguardrailsbypassintermediate

NVIDIA NeMo Guardrails

NVIDIA 之開源 NeMo Guardrails 框架之架構、組態、Colang 程式設計、整合模式與繞過技術。

prompt-shieldinjection-detectionazureclassifierbypassfine-tuning

Prompt Shield 與注入偵測

Azure Prompt Shield 與專責注入偵測模型如何運作，其基於微調分類器之偵測模式，以及繞過它們之系統化方法。

實驗室: Systematically Bypassing Guardrails

Hands-on lab for methodically probing, classifying, and bypassing input/output guardrails in production AI systems using a structured red team workflow.

embeddingvector-dbaccess-controlbypass

Vector DB Access Control Bypass Techniques

Techniques for bypassing vector database access controls including namespace escaping, metadata injection, and query manipulation.

fine-tuningAPIrate-limitbypass

Fine-Tuning API 安全 Bypass

Techniques for bypassing safety checks and rate limits in cloud-hosted fine-tuning APIs to submit adversarial training data at scale.

instructionfinesafetybypasstuning

Instruction Tuning Safety Bypass

Using instruction tuning to selectively bypass safety mechanisms while maintaining model capability.

frontierconstitutional-aibypass

Constitutional AI Bypass Techniques

Analyzing and bypassing constitutional AI training through adversarial constitutions and principle manipulation.

labsconstitutional-aibypassadvanced

實驗室: Constitutional AI Bypass Techniques

Test and bypass Constitutional AI safety mechanisms by exploiting the critique-revision training methodology.

實驗室: Chaining Guardrail Bypasses

進階 lab on identifying, isolating, and chaining multiple guardrail bypass techniques to defeat layered defense systems in production LLM applications.

labsconstitutional-classifiersbypassadvanced

Constitutional Classifier Bypass

Develop techniques to bypass Anthropic-style constitutional classifiers through adversarial input crafting.

labsragaccess-controlbypassadvanced

RAG Access Control Bypass

Bypass document-level access controls in enterprise RAG systems through query manipulation and context injection.

labdefense-evasionfiltersbypass

實驗室: Basic 防禦 Evasion

Encounter and bypass basic LLM defenses including keyword filters, content classifiers, and input preprocessing through encoding tricks, synonym substitution, and payload splitting.

labencodingbypasscontent-filtersbeginner

實驗室: Encoding Bypasses

Test Base64, ROT13, hex, and Unicode encoding techniques to evade LLM content filters while preserving the semantic meaning of adversarial payloads.

labsencodingbypassunicodebeginner

Character Encoding Bypass Techniques

Bypass input filters using Unicode normalization, homoglyph substitution, and mixed-script encoding.

Guardrail Olympics: Multi-Framework Bypass

Bypass guardrail implementations from NeMo, LLM Guard, Rebuff, and custom classifiers.

labsctfguardrailsbypass

labencodingbypassobfuscationsystematic-testingintermediate

實驗室: Encoding Bypass 實驗室

Hands-on lab for systematically testing Base64, ROT13, Unicode homoglyph, hexadecimal, and combined encoding bypasses against LLM safety filters with measured success rates.

intermediatebypasslablanguagelabsmulti

Multi-Language Safety Bypass 實驗室

利用 gaps in safety training coverage across languages to bypass safety mechanisms using code-switching.

intermediatebypassoutputlabstructuredlabs

Structured Output Safety Bypass

Use JSON mode and structured output constraints to extract information that would be refused in free-form responses.

labtranslationbypassmultilinguallow-resource

實驗室: Language Translation Bypass

Hands-on lab exploiting language translation capabilities to bypass safety filters by submitting prompts in low-resource languages, code-switching, and using transliteration tricks.

labsnemo-guardrailsbypassintermediate

NeMo Guardrails Bypass Techniques

Test and bypass NVIDIA NeMo Guardrails configurations using known evasion techniques.

labsoutput-filterbypassencodingintermediate

Output Filter Bypass via Encoding

Bypass output safety filters by instructing the model to encode responses in Base64, hex, or custom schemes.

prompt-injectionencodingbypassobfuscation

進階 Encoding Chain 攻擊s (提示詞注入)

Deep dive into chaining multiple encoding schemes to create injection payloads that bypass layered input filters and content classifiers.

prompt-injectionmultilinguallanguagebypass

Multilingual Injection 攻擊s

利用ing language diversity and translation inconsistencies to craft injection payloads that evade English-centric safety filters.

prompt-injectionrole-escalationprivilegebypass

Role Escalation via Injection

Techniques for escalating from user-level to system-level instruction authority through carefully crafted injection sequences.

infrastructureapirate-limitingbypassred-teaming

API Rate Limit Bypass

Techniques to bypass API rate limiting on LLM services, including header manipulation, distributed requests, authentication rotation, and endpoint discovery.

attacksencodingchainbypasswalkthroughwalkthroughs

Encoding Chain Bypass 導覽

導覽 of chaining Base64, URL encoding, and Unicode tricks to bypass multi-layer input filters.

walkthroughsunicodenormalizationbypass

Unicode Normalization Bypass 導覽

Step-by-step guide to exploiting Unicode normalization differences between input filters and model tokenizers.