# red-teaming
標記為「red-teaming」的 85 篇文章
權限邊界繞過
透過範圍蔓延、隱含權限繼承與能力混淆,從受限權限提升至高權限的 AI 代理系統攻擊。
越獄技術評量
以 10 道中級題目測試你對 LLM 越獄方法、繞過策略以及繞過安全訓練機制的知識。
總結專案:建置完整的 AI 紅隊演練平台
設計並實作全面的 AI 紅隊演練平台,具備自動化攻擊編排、漏洞追蹤與協作式報告能力。
完整案件方法論
進行完整 AI 紅隊案件的全面方法論,將先前章節的所有技術整合為結構化專業評估。
攻擊者後手問題
為何靜態 LLM 防禦在適應性對手前失敗:12 項遭繞過防禦的分析及對防禦設計的意涵。
理解 AI 防禦
為何紅隊員必須理解他們所面對的防禦、AI 防禦類別,以及 AI 安全中攻擊者與防禦者的不對稱。
AI 利用開發概覽
為 AI 紅隊演練開發利用程式與工具的介紹,涵蓋建構對機率性系統之可靠攻擊的獨特挑戰。
持續自動化紅隊(CART)
為持續 AI 安全驗證設計 CART 管線:架構、測試套件、遙測、警報、回歸偵測與 CI/CD 整合。
攻擊分類概覽
AI 攻擊分類的完整概覽,從提示詞注入到模型盜竊,依攻擊者目標與所需存取組織。
紅隊方法論基礎
什麼是 AI 紅隊演練、它與傳統安全測試有何不同,以及從範圍界定到報告的完整演練生命週期。
AI 紅隊演練基礎
AI 紅隊演練的基本概念與方法論,包含目標設定、範圍界定、技術選擇與報告。
自動化紅隊系統
針對大規模 LLM 漏洞探索的端到端自動化紅隊系統。
機制可解釋性與紅隊演練
將機制可解釋性研究應用於紅隊演練,涵蓋電路分析、特徵歸因與內部模型探測。
紅隊演練推論軌跡
對可見推論軌跡模型進行紅隊演練的技術,包括思維注入與軌跡操弄。
EU AI Act Red Team Requirements
Specific red teaming and testing requirements under the EU AI Act for high-risk AI systems.
Responsible AI Red Teaming Ethics
Ethical frameworks for conducting AI red teaming including scope limits and harm prevention.
產業別:各行業的 AI 安全
涵蓋醫療、金融服務、法律、政府與關鍵基礎設施的產業特定 AI 安全挑戰、法規要求與紅隊演練方式的完整指南。
自動化越獄流水線
運用 PAIR、TAP、AutoDAN 及自訂流水線架構建構自動化越獄系統,以進行系統化的 AI 安全評估。
實作:載荷製作
學習 to craft effective 提示詞注入 payloads from scratch by understanding payload structure, testing iteratively, and optimizing for reliability against a local model.
Lab: PyRIT Setup and First Attack
Install and configure Microsoft's PyRIT (Python Risk Identification Toolkit) for automated 紅隊演練, then run your first orchestrated attack against a local model.
Claude(Anthropic)概觀
Anthropic Claude 模型家族的架構與安全概觀,涵蓋 Sonnet、Opus 與 Haiku 變體、Constitutional AI 訓練、RLHF 做法,以及 harmlessness 設計哲學。
跨模型比較
系統性比較 LLM 安全性的方法論,跨模型家族進行,內容涵蓋標準化評估框架、架構差異分析與比較測試方法。
Gemini(Google)概觀
Google Gemini 模型家族的架構概觀,包括原生多模態設計、長上下文能力、Google 生態整合,以及對紅隊具意義的安全相關特性。
GPT-4 / GPT-4o 概觀
OpenAI GPT-4 與 GPT-4o 模型的架構概觀,涵蓋傳聞中的 Mixture of Experts 設計、能力、API 介面,以及對紅隊具意義的安全相關特性。
GPT-4 測試方法論
為紅隊 GPT-4 之系統化方法論,含 API 基探測技術、速率限制考量、內容政策對應與安全邊界發現。
模型深度剖析
為何模型特定知識對 AI 紅隊演練至關重要、不同架構如何產生不同的攻擊面,以及對任何新模型進行剖繪的系統化方法論。
Llama 家族攻擊
Meta 之 Llama 模型家族之完整攻擊分析,含權重操弄、微調安全移除、量化產物、未審查變體與 Llama Guard 繞過技術。
Mistral 與 Mixtral
Mistral 與 Mixtral 模型之安全分析,包括 Mixture of Experts 攻擊、稀疏啟動攻擊、最小化安全對齊之意涵,以及開源權重部署風險。
多模態系統紅隊演練方法論
針對多模態 AI 系統進行安全評估的結構化方法論,涵蓋範疇定義、攻擊面列舉、測試執行,以及使用 MITRE ATLAS 映射進行報告。
AI 紅隊職涯路徑
建立 AI 紅隊演練職涯的完整指南,從入門職位到資深領導職。
上下文溢位攻擊
以填塞內容填滿大型語言模型上下文視窗,把系統指令推出注意力之外,降低其對模型行為影響力的技術。
直接提示詞注入
直接將指令注入大型語言模型提示詞以覆寫系統行為的技術,包含指令覆寫、上下文操控與格式模仿。
編碼繞過技術
使用 Base64、ROT13、Unicode 轉換、十六進位編碼與其他混淆方法,在保留語意意義的同時,規避提示詞注入過濾器與安全分類器。
Few-Shot 操控
使用精心打造的上下文範例引導模型行為,包含 many-shot 越獄、被投毒的示範與基於範例的制約。
提示詞注入分類
提示詞注入攻擊的完整分類框架,涵蓋直接與間接向量、遞送機制、目標層級與嚴重度評估,用於系統化紅隊測試。
指令階層攻擊
利用系統、使用者與助理訊息間的優先順序以覆寫安全控制、操控指令優先權,並透過訊息角色混淆進行權限提升。
越獄技術
繞過大型語言模型安全對齊的常見模式與進階技術,包含角色扮演、編碼技巧、多範例攻擊與基於梯度的方法。
語言切換
透過切換到低資源語言、混合語言或使用音譯以規避過濾器,利用安全訓練的語言特定落差。
Many-Shot 越獄
上下文越獄的冪律縮放:為何 5-shot 失敗但 256-shot 成功、上下文視窗大小作為攻擊面、長上下文利用的緩解方法。
多輪攻擊
跨越多個對話回合、使用漸進升級、脈絡建構、漸強模式與長期信任建立的攻擊。
多輪提示詞注入
跨對話回合的漸進升級攻擊,包含漸強模式、脈絡引導、信任建立與規避逐訊息偵測系統的技術。
載荷分割
將惡意指令拆分至多則訊息、變數或資料來源,以規避單點偵測,同時讓模型在處理過程中重新組合完整載荷。
人格建立
建立跨對話輪次存活並抵擋回復預設行為之持久另類身份,包含角色鎖定、身份錨定與漸進式人格建構。
角色扮演攻擊
建立替代人格或虛構情境,使模型繞過安全訓練,包含 DAN 變體、角色劫持與敘事框架。
對 AI 的社交工程
透過情感訴求、權威聲明、緊急框架與社交壓力戰術操控 AI 系統,利用其指令遵循傾向。
AI 紅隊演練方法論
AI 紅隊案件的結構化方法論,涵蓋偵察、目標剖析、攻擊規劃,以及區分專業評估的技藝。
AI 紅隊演練速查表
AI 紅隊案件的濃縮快速參考,涵蓋完整生命週期、攻擊類別、常見工具、偵察與報告。
API 速率限制繞過
繞過 LLM 服務 API 速率限制的技術,包括標頭操控、分散式請求、認證輪換和端點探測。
音訊提示詞注入
透過音訊輸入向語音轉文字和多模態模型注入對抗性指令,利用音訊通道作為替代注入向量。
基於密碼的越獄攻擊
使用密碼、編碼和暗語繞過 LLM 內容過濾器,將有害請求轉換為安全分類器無法識別的格式。
透過 Markdown 進行代碼注入
透過 LLM 輸出中的 Markdown 渲染注入可執行載荷,利用網頁型 LLM 介面中文字生成與內容渲染之間的差距。
複合攻擊鏈詳解
將多種提示詞注入技術組合成複合攻擊以擊敗分層防禦,構建利用每種技術各自優勢的攻擊鏈。
上下文視窗填充攻擊
填充 LLM 上下文視窗以將系統指令推出活躍記憶體的技術,透過操控符元預算來稀釋或取代防禦性提示詞。
Crescendo 多輪攻擊
Crescendo 攻擊技術,透過在多個對話輪次中逐漸升級請求以繞過 LLM 安全訓練,而不觸發單輪偵測。
Cross-Modal Confusion
Confusing multimodal AI models by sending conflicting or complementary signals across different input modalities to bypass safety mechanisms and exploit fusion weaknesses.
DAN 越獄演化史
Do Anything Now(DAN)提示詞的歷史與演化,分析是什麼使其有效繞過 LLM 安全訓練,以及防禦措施如何隨時間適應。
分隔符逃逸攻擊
利用 LLM 應用程式中用於分隔系統和使用者內容的分隔符的技術,突破沙盒輸入區域以注入指令。
直接注入基礎
直接向 LLM 提示詞注入指令的核心概念,包括覆寫技術、簡單載荷製作,以及理解模型如何解析衝突指令。
Encoding-Based Evasion
Using base64, ROT13, hexadecimal, Unicode, and other encoding schemes to evade input detection systems and bypass content filters in LLM applications.
Few-Shot Injection
Using crafted few-shot examples within user input to steer LLM behavior toward unintended outputs, exploiting in-context learning to override safety training.
Image-Based 提示詞注入 (攻擊 導覽)
Embedding text instructions in images that vision models read, enabling prompt injection through the visual modality to bypass text-only input filters and safety mechanisms.
Inference Endpoint 利用ation
利用ing inference API endpoints for unauthorized access, data exfiltration, and service abuse through authentication flaws, input validation gaps, and misconfigured permissions.
Instruction Hierarchy Bypass
進階 techniques to bypass instruction priority and hierarchy enforcement in language models, exploiting conflicts between system, user, and assistant-level directives.
Language Switch 越獄
利用ing weaker safety training in non-English languages to bypass LLM content filters by switching the conversation language mid-prompt or using low-resource languages.
Many-Shot 越獄ing (攻擊 導覽)
Using large numbers of examples in a single prompt to overwhelm LLM safety training through in-context learning, exploiting long context windows to shift model behavior.
Multi-Turn Progressive Injection
Gradually escalating prompt injection across conversation turns to build compliance, using psychological techniques like foot-in-the-door and norm erosion.
OCR-Based 攻擊s
利用ing Optical Character Recognition processing pipelines to inject adversarial text into AI systems, targeting the gap between what OCR extracts and what humans see.
Output Format Manipulation (攻擊 導覽)
Forcing specific output formats to bypass LLM safety checks by exploiting the tension between format compliance and content restriction.
PAIR Automated 越獄
Using a second LLM as an automated attacker to iteratively generate and refine jailbreak prompts against a target model, implementing the Prompt Automatic Iterative Refinement technique.
Payload Obfuscation Techniques
Methods for disguising prompt injection payloads through encoding, splitting, substitution, and other obfuscation techniques to bypass input filters and detection systems.
PDF Document Injection
Injecting adversarial prompts through PDF documents processed by AI systems, exploiting document parsing pipelines to deliver payloads through text layers, metadata, and embedded objects.
Prompt Leaking Step by Step
Systematic approaches to extract system prompts from LLM applications, covering direct elicitation, indirect inference, differential analysis, and output-based reconstruction.
Recursive Injection Chains
Creating self-reinforcing injection chains that amplify across conversation turns, building compound prompts where each step strengthens the next injection's effectiveness.
Role Escalation Chain
Progressive role escalation techniques that gradually transform an LLM from a constrained assistant into an unrestricted entity across multiple conversation turns.
Role-Play Injection
Using fictional scenarios, character role-play, and narrative framing to bypass LLM safety filters by having the model operate within a permissive fictional context.
Skeleton Key 攻擊
The Skeleton Key jailbreak technique that attempts to disable model safety guardrails across all topics simultaneously by convincing the model to add a disclaimer instead of refusing.
System Prompt Override
Techniques to override, replace, or neutralize LLM system prompts through user-level injection, analyzing how system prompt authority can be undermined.
Thought Injection for Reasoning 模型s
Techniques for injecting malicious content into chain-of-thought reasoning traces of thinking models, exploiting the gap between reasoning and safety enforcement.
Token Smuggling
利用ing LLM tokenization quirks to smuggle harmful content past safety filters by manipulating how text is split into tokens at the subword level.
Translation Injection
Using translation requests and low-resource languages to bypass content filters, exploiting the uneven distribution of safety training across languages.
Video Frame Injection (攻擊 導覽)
Embedding prompt injection payloads in specific video frames to attack multimodal models that process video content, exploiting temporal and visual channels simultaneously.
Virtual Persona Creation
Creating persistent alternate personas within LLM conversations to bypass safety training, establishing character identities that override the model's default behavioral constraints.
Running Your First PyRIT 紅隊 Campaign
初階 walkthrough for running your first PyRIT red team campaign from scratch, covering installation, target configuration, orchestrator setup, and basic result analysis.
Orchestrating Multi-Turn 攻擊 Sequences with PyRIT
Intermediate walkthrough on using PyRIT's orchestration capabilities for multi-turn red team campaigns, including attack strategy design, conversation management, and adaptive scoring.
PyRIT End-to-End 導覽
Complete walkthrough of Microsoft's Python Risk Identification Toolkit: setup, connecting to targets, running orchestrators, using converters, multi-turn attacks, and analyzing results with the web UI.