# guardrails
標記為「guardrails」的 45 篇文章
進階雲端 AI 安全評估
15 題進階評估,涵蓋 AWS、Azure、GCP 的雲端 AI 攻擊面:護欄繞過、知識庫利用、託管身分濫用、模型客製化風險與多雲攻擊路徑。
防禦基礎評量
以 9 道中級題目測試你對 AI 防禦機制的理解,包括輸入/輸出過濾、護欄、沙箱化與深度防禦策略。
防禦與緩解評量
以 15 道中級題目測試你對 AI 護欄、監控系統、事件回應與深度防禦策略的知識。
護欄實作評量
以 9 道中級題目測試你對護欄實作策略、內容分類系統、安全分類與護欄繞過技術的理解。
技能驗證:防禦實作
限時技能驗證實驗室:在 45 分鐘內建構通過自動化攻擊測試的可運作護欄系統。
技能驗證: Guardrail Bypass
針對以下的實作驗證:護欄繞過技巧跨 NeMo、LLM Guard、custom implementations。
Capstone:LLM 防火牆
Capstone 專案:從零打造生產級 LLM 防火牆,處理提示詞注入、編碼繞過、多訊息攻擊與工具呼叫濫用。
頂石專案:防禦系統實作
打造含輸入過濾、輸出監控、護欄、速率限制與日誌的完整 AI 防禦堆疊,再以自動化攻擊進行評估。
AWS Bedrock Guardrails 紅隊測試
針對 AWS Bedrock Guardrails 的紅隊測試,涵蓋內容過濾器、拒絕主題與 PII 處理。
多雲 AI 安全比較矩陣
比較 AWS、Azure 與 GCP AI 服務在 IAM、網路、監控、護欄與成本控制等面向的安全態勢。
防禦挑戰:打造無法突破的護欄
參與者打造須承受自動攻擊套件的護欄系統,依安全性與可用性指標評分。
自適應護欄系統
根據威脅情報、使用者風險評分與行為模式動態調整敏感度的護欄。
防禦有效性基準測試
系統性評估與基準測試 AI 防禦有效性的進階方法論,包括護欄測試框架、攻擊成功率測量、防禦評估的統計嚴謹性,以及跨防禦配置的比較分析。
防護機制與安全層架構
防護系統在架構上如何設計,包括前置處理、推論中處理與後置處理層、常見設計模式,以及各層可被繞過之處。
NVIDIA NeMo Guardrails
NVIDIA 之開源 NeMo Guardrails 框架之架構、組態、Colang 程式設計、整合模式與繞過技術。
護欄框架比較 2025
NeMo Guardrails、LLM Guard、Rebuff 與自訂護欄實作的比較分析。
自適應護欄系統
根據威脅情報、使用者風險評分與行為模式動態調整敏感度的護欄。
防禦與緩解
AI 系統的防禦策略,包含護欄架構、監控與可觀測性、安全開發實務、修復對應與進階防禦技術。
自適應護欄系統
根據威脅情報、使用者風險評分與行為模式動態調整敏感度的護欄。
實驗室:系統性繞過護欄
以結構化紅隊工作流對正式 AI 系統的輸入/輸出護欄進行有條理的探測、分類與繞過的實作實驗室。
自適應護欄系統
根據威脅情報、使用者風險評分與行為模式動態調整敏感度的護欄。
AI 防禦景觀
AI 防禦類別之完整概觀,包括輸入過濾、輸出過濾、guardrail、對齊訓練與監控——以及各領域之工具與供應商。
Lab: Chaining Guardrail Bypasses
Advanced lab on identifying, isolating, and chaining multiple 護欄 bypass 技術 to defeat layered defense systems in production LLM applications.
CTF:防禦挑戰賽(藍隊)
藍隊 CTF 挑戰:你要建構並防禦一個 AI 聊天機器人,對抗一連串日益精密的自動化攻擊。
Guardrail Olympics: Multi-Framework Bypass
Bypass 護欄 implementations from NeMo, LLM Guard, Rebuff, and custom classifiers.
護欄 Speedrun: Fastest 繞過 Challenge
繞過5 different guardrail implementations as fast as possible in a timed competition format.
Lab: Build Guardrail Evaluator
建構 an automated framework for evaluating AI 護欄s and safety filters. 測試 input filters, output classifiers, content moderation systems, and defense-in-depth architectures for coverage gaps and bypass vulnerabilities.
實驗室: AWS Bedrock 護欄 測試
動手實驗室,主題為systematically testing與bypassing AWS Bedrock's built-in guardrails,包括 content filters,denied topics,word filters.
實驗室: 防禦 Effectiveness Measurement
動手實驗室,主題為quantifying AI guardrail robustness using attack success rates,evasion metrics,false positive rates,statistical analysis of defense performance.
實驗室: 防禦 Effectiveness 測試
Systematically test與measure the robustness of AI guardrails using structured methodology,metrics,repeatable test suites.
護欄 Fingerprinting
Systematically map the rules與thresholds of input/output guardrail systems.
護欄 Latency-Based 偵測
Use timing side channels to identify與characterize guardrail implementations in LLM applications.
Simulation: Build & Defend a Chatbot
防禦 simulation where you build a chatbot with layered defenses, test it against a standardized attack suite, measure defense effectiveness, and iterate on weaknesses.
Simulation: Guardrail Engineering
防禦 simulation where you design and implement a multi-layer guardrail system, test it against progressively sophisticated attacks, and document false positive/negative rates.
防禦規避
繞過為保護大型語言模型應用程式而部署之安全過濾器、內容分類器、護欄與偵測系統的進階技術。
防禦繞過快速參考
常見 AI 防禦機制及其已知繞過技術的快速參考卡,依防禦類型組織。
部署 NeMo Guardrails
於生產環境設置 NVIDIA NeMo Guardrails 的逐步演練,涵蓋安裝、Colang 配置、自訂動作、主題與安全護欄、測試與監控。
Setting Up AI Guardrails
Step-by-step walkthrough for implementing AI guardrails: input validation with NVIDIA NeMo Guardrails, prompt injection detection with rebuff, output filtering for PII and sensitive data, and content policy enforcement.
Building Input Guardrails for LLM Applications
Step-by-step walkthrough for implementing production-grade input guardrails that protect LLM applications from prompt injection, content policy violations, and resource abuse through multi-layer validation, classification, and rate limiting.
防禦實作演練
實作 AI 安全防禦的逐步指南:護欄配置、監控與偵測設置,以及 AI 系統的事件回應準備。
Response Boundary Enforcement
Step-by-step walkthrough for keeping LLM responses within defined topic, format, and content boundaries, covering boundary definition, violation detection, response rewriting, and boundary drift monitoring.
Function Calling Guardrails Implementation
Implement guardrails for function calling that validate tool selection, parameters, and execution scope.
AWS Bedrock 紅隊 導覽
Complete guide to red teaming AWS Bedrock deployments: testing guardrails bypass techniques, knowledge base data exfiltration, agent prompt injection, model customization abuse, and CloudTrail evasion.
AWS Bedrock 紅隊 導覽 (Platform 導覽)
End-to-end walkthrough for red teaming AI systems on AWS Bedrock: setting up access, invoking models via the Converse API, testing Bedrock Guardrails, exploiting knowledge bases, and analyzing CloudTrail logs.
NeMo Guardrails 導覽
End-to-end walkthrough of NVIDIA NeMo Guardrails: installation, Colang configuration, dialog flow design, integration with LLM applications, and red team bypass testing techniques.