# defense
標記為「defense」的 232 篇文章
MCP 認證缺口:保護 MCP 伺服器認證
聚焦防禦的指南,理解 MCP 伺服器部署中的認證弱點——38% 受掃描伺服器毫無認證——並實作穩健的權杖認證、mTLS 與基於中介層的存取控制。
MCP 命令注入:理解並防止 MCP 伺服器中的 Shell 注入
聚焦防禦的指南,理解 MCP 伺服器實作中命令注入漏洞的成因、分析 CVE-2025-6514 (CVSS 9.6),並實作穩健的輸入清理、參數化命令與沙箱以保護 MCP 部署。
MCP 跨客戶端資料外洩:防止工作階段隔離失效
聚焦防禦的指南,理解並防止 MCP 客戶端工作階段間的資料外洩,分析 CVE-2026-25536 並實作工作階段隔離的狀態管理,以保護多租戶 MCP 部署。
MCP 錢包阻斷:防範符元消耗攻擊
聚焦防禦的指南,理解透過 MCP 的錢包阻斷攻擊——惡意伺服器如何製造「過度思考迴圈」導致 142.4 倍的符元放大——並實作預算控制、速率限制與成本監控以保護 LLM 端點。
MCP 路徑穿越:防止 MCP 伺服器檔案系統逃逸
聚焦防禦的指南,防範 MCP 檔案操作中的路徑穿越漏洞——82% 的實作易受穿越攻擊——提供可運作的檔案系統沙箱、路徑驗證、chroot 監獄與偵測規則。
MCP 安全:理解並防禦協定
模型上下文協定 (MCP) 安全的完整指南——理解攻擊面、已知漏洞 (2026 年初超過 30 個 CVE),並為啟用 MCP 的 AI 代理系統實作穩健防禦。
MCP 安全測試:如何測試 MCP 伺服器的漏洞
以防禦為核心的 MCP 伺服器實作安全測試指南——MCP 安全評估方法論、掃描工具,認證繞過、注入、穿越與資料外洩的常見測試案例,附可運作的測試腳本與回報樣板。
MCP 伺服器加固指南:完整部署安全
MCP 伺服器部署的完整加固指南——涵蓋 24 項安全檢核清單、Docker 隔離、Nginx 反向代理配置、日誌與監控設定,以及網路政策強制,每個組件皆附可運作的配置。
MCP 供應鏈安全:防禦被植入後門的 MCP 套件
以防禦為核心的 MCP 套件供應鏈安全指南——分析 Postmark MCP 入侵、理解惡意 MCP 伺服器如何散布,並實作套件驗證、依賴掃描與政策強制。
進階 Defense 模擬測驗
模擬測驗涵蓋guardrail architecture、constitutional AI 防禦s、behavioral monitoring implementation。
防禦專家模擬測驗
模擬測驗的AI 防禦 specialization涵蓋guardrails、monitoring、事件回應。
防禦專家模擬測驗 (評估)
Specialized 模擬測驗的AI 防禦 practitioners涵蓋guardrails、monitoring、architecture。
防禦基礎評量
以 9 道中級題目測試你對 AI 防禦機制的理解,包括輸入/輸出過濾、護欄、沙箱化與深度防禦策略。
Defense & Mitigation 評估
評估涵蓋guardrails、classifiers、constitutional AI、防禦-in-depth architectures。
防禦與緩解評量
以 15 道中級題目測試你對 AI 護欄、監控系統、事件回應與深度防禦策略的知識。
多模態 Defense 評估
評估涵蓋防禦s against visual injection、audio 攻擊、cross-modal 利用。
Output Safety 評估
評估 of output filtering、content classification、watermarking、data leakage prevention。
Defense Architecture 評估
評估涵蓋designing 防禦-in-depth architectures的different AI application types。
Injection Defense 評估
評估涵蓋defending against 提示詞注入包括 classifiers、guardrails、output filtering。
技能驗證: 防禦有效性 Evaluation
Practical verification of skills in evaluating guardrails、classifiers、monitoring systems。
技能驗證: Defense Evaluation
針對以下的實作驗證:ability to evaluate、bypass LLM 防禦 mechanisms。
技能驗證: 多模態 Defense
Practical verification of ability to defend 多模態 AI systems against cross-modal 攻擊。
技能驗證:防禦實作
限時技能驗證實驗室:在 45 分鐘內建構通過自動化攻擊測試的可運作護欄系統。
Defense 專家學習指南
學習指南的防禦評估s涵蓋guardrails、classifiers、monitoring、architecture design。
Capstone:防禦架構設計
Capstone 演練:為 LLM 驅動應用設計並驗證縱深防禦架構。
Capstone:LLM 防火牆
Capstone 專案:從零打造生產級 LLM 防火牆,處理提示詞注入、編碼繞過、多訊息攻擊與工具呼叫濫用。
頂石專案:防禦系統實作
打造含輸入過濾、輸出監控、護欄、速率限制與日誌的完整 AI 防禦堆疊,再以自動化攻擊進行評估。
AI 程式碼審查操控
欺騙 AI 驅動程式碼審查工具核准脆弱程式碼的技術——涵蓋語意混淆、審查偏誤利用與防禦策略。
2026 年 4 月:防禦建構挑戰
為聊天機器人打造最強韌的防禦系統,並對照 500 個多樣化提示詞注入與越獄嘗試的自動化攻擊套件進行評分。
防禦建造者系列
聚焦於打造與測試針對已知攻擊類別防禦機制的社群系列。
社群專案:防禦函式庫
由社群貢獻的可組合防禦元件開源函式庫,具備標準化介面與完整文件。
社群挑戰:防禦競技場
建立能存活跨多樣攻擊類別之 100 次自動化攻擊嘗試之 AI 聊天機器人防禦,以阻擋率與可用性保留評分。
防禦挑戰:偵測工程
專注於打造提示詞注入偵測系統的挑戰,依真陽性率與假陽性率評分。
防禦挑戰:打造無法突破的護欄
參與者打造須承受自動攻擊套件的護欄系統,依安全性與可用性指標評分。
月度挑戰:防禦建造者
每月挑戰打造對特定攻擊技術集最穩健的防禦。
工具打造黑客松:防禦工具包
協作黑客松,為 LLM 應用打造開源防禦工具,包括護欄、過濾器與監控元件。
週挑戰:防禦逆向工程
每週挑戰中,參與者逆向工程未知防禦機制,找出繞過技術並記錄發現。
成員推論防禦
針對成員推論攻擊的進階防禦技術,含差分隱私。
自適應護欄系統
根據威脅情報、使用者風險評分與行為模式動態調整敏感度的護欄。
憲法式分類器
Anthropic 的憲法式分類器防禦:使用憲法式 AI 原則訓練承受 3,000+ 小時對抗性紅隊演練的輸入/輸出分類器。
LLM 防禦的對抗性訓練
使用對抗性訓練技術,提升 LLM 對已知攻擊模式的穩健性。
代理權限模型設計
為具工具存取之 LLM 代理設計最小權限權限模型,包括基於能力的安全性。
代理沙箱化策略
限制受損 LLM 代理爆炸半徑的沙箱化與隔離策略。
攻擊者後手問題
為何靜態 LLM 防禦在適應性對手前失敗:12 項遭繞過防禦的分析及對防禦設計的意涵。
用於注入偵測的金絲雀符元
實作金絲雀符元系統,透過監控模型輸出中的金絲雀外洩來偵測提示詞注入。
LLM 的斷路器樣式
實作在偵測到異常行為時停止 LLM 處理的斷路器樣式。
LLM 推論的機密運算
使用可信執行環境與機密運算以確保 LLM 推論安全性與資料保護。
憲法式 AI 作為防禦策略
使用憲法式 AI 原則建立本質上更安全、抵禦攻擊的 LLM 應用。
內容過濾架構
為 LLM 應用設計涵蓋輸入、輸出與上下文過濾的內容過濾系統。
LLM 應用的資料外洩防護
專為 LLM 應用設計的 DLP 系統,用以防止敏感資料透過模型輸出外洩。
LLM 應用的縱深防禦
為正式 LLM 應用實作分層防禦架構。
護欄框架比較 2025
NeMo Guardrails、LLM Guard、Rebuff 與自訂護欄實作的比較分析。
人類監督整合樣式
將人類監督整合至 AI 工作流程中、用於安全關鍵操作的樣式。
自適應護欄系統
根據威脅情報、使用者風險評分與行為模式動態調整敏感度的護欄。
防禦與緩解
AI 系統的防禦策略,包含護欄架構、監控與可觀測性、安全開發實務、修復對應與進階防禦技術。
LLM 的輸入驗證架構
設計在提示詞注入到達模型前偵測並中和的輸入驗證管線。
自適應護欄系統
根據威脅情報、使用者風險評分與行為模式動態調整敏感度的護欄。
自適應護欄系統
根據威脅情報、使用者風險評分與行為模式動態調整敏感度的護欄。
LLM 蜜罐技術
部署蜜罐提示詞與陷阱機制,以偵測並描繪對 LLM 系統的對抗性探測行為。
LLM 監控與異常偵測
建構能偵測 LLM 應用中對抗性使用模式的監控系統。
LLM 安全測試自動化
運用 CI/CD 整合與持續掃描,為 LLM 應用建構自動化安全測試管線。
MCP 伺服器安全強化
強化 MCP 伺服器實作,防範工具投毒、傳輸攻擊與權限提升。
多模型共識防禦
以多個模型作為交叉驗證者,透過共識不一致偵測對抗性操縱。
輸出來源追蹤
追蹤 LLM 輸出來源的系統,用以偵測幻覺、資料外洩與指令注入。
輸出淨化模式
對 LLM 輸出進行淨化,以預防資訊洩露與有害內容傳遞的模式。
LLM 應用的權限分離
實作權限分離,依脈絡與使用者角色限制 LLM 可用的能力。
提示詞注入金絲雀系統
在系統提示詞中部署金絲雀字串,以偵測並警示提示詞注入與萃取嘗試。
訓練提示詞注入分類器
訓練並評估能高準確度偵測提示詞注入嘗試之 ML 分類器的方法論。
以 ML 為基礎的提示詞注入偵測
為即時提示詞注入偵測建構並訓練 ML 分類器。
RAG 系統安全強化
強化 RAG 系統,防範投毒、注入與資料外洩的完整指引。
速率限制與濫用防護
為 LLM API 端點與應用實作速率限制與濫用防護。
AI 系統的紅隊即服務
建構與營運持續性 AI 紅隊服務,涵蓋合作模式、工具鏈與報告機制。
紅隊演練驅動的防禦改善
運用紅隊演練發現,系統性地改善 LLM 應用的防禦。
回應一致性檢查
對模型回應與已知事實實施一致性檢查以偵測操縱。
執行時模型行為監控
用於偵測已部署 LLM 應用行為異常的即時監控系統。
安全層基準測試方法論
針對多類攻擊類別,對 LLM 安全層效能進行基準測試的標準化方法論。
安全開發
AI 應用程式的安全設計原則,包含防禦性提示詞工程、輸入驗證、輸出清理,以及將安全測試整合至 CI/CD 管線。
安全函式呼叫設計
設計安全的函式呼叫介面,預防未授權的工具使用與資料外洩。
安全 RAG 管線設計模式
以安全為優先的 RAG 管線設計模式,涵蓋來源驗證、內容淨化與檢索控制。
基於語義相似度的防禦
利用嵌入相似度分析偵測語義上接近已知攻擊模式的對抗性輸入。
符元歸因監控
監控模型輸出中的符元歸因,以偵測對抗性輸入對生成的影響。
分詞器層級防禦機制
在分詞器層級實作安全檢查,以偵測並中和對抗性符元模式。
LLM 適應性防禦系統
透過線上學習與回饋迴圈,建構能適應新型攻擊模式的防禦系統。
藍隊 LLM 維運指南
針對防禦 LLM 應用的藍隊維運指南,涵蓋監控、分級處理與回應。
金絲雀字詞監控系統
在系統提示詞與文件中部署金絲雀字詞,以偵測並警示提示詞注入與外洩。
LLM 應用上下文隔離模式
在 LLM 應用中將不受信任內容與受信任指令隔離的架構模式。
LLM 應用資料外洩防護 (DLP)(防禦緩解)
為 LLM 應用實作 DLP 控制,以防止敏感組織資料外洩。
防禦評估方法論
評估 AI 防禦對已知攻擊類別之有效性的系統化方法論。
縱深防禦參考架構
附實作藍圖的 LLM 應用縱深防禦完整參考架構。
函式呼叫授權框架
為函式呼叫建構細粒度授權框架,強制執行基於能力的安全。
LLM 防火牆架構設計
設計並實作檢查、過濾與記錄所有模型互動的 LLM 防火牆。
多模型安全驗證架構
以相互檢查架構運用多個模型交叉驗證輸入與輸出的安全性。
LLM 服務的多租戶隔離
在多租戶 LLM 服務中實作強隔離,以防止跨租戶攻擊。
輸出浮水印作為防禦
於 LLM 應用中利用輸出浮水印進行內容來源追蹤與濫用偵測。
隱私保護推論模式
實作隱私保護的推論模式,以保護 LLM 應用處理的敏感資料。
即時安全監控系統
為已部署 LLM 應用建構即時安全監控與警示系統。
支援回滾的 AI 模型安全部署
實作具自動回滾觸發的安全部署實踐,以因應 AI 模型安全退化。
安全 MCP 部署模式
在生產代理環境中為 MCP 伺服器實作提供安全部署模式。
基於語義相似度的防禦(防禦緩解)
運用語義相似度,將使用者輸入與已知攻擊模式比對以偵測提示詞注入。
系統提示詞強化模式
建立抗注入系統提示詞的設計模式,打造縱深防禦的提示詞架構。
符元層級異常偵測
建構符元層級異常偵測系統,辨識輸入序列中的對抗性模式。
面向安全的使用者意圖分類
建構能區分合法請求與對抗性操縱嘗試的使用者意圖分類器。
LLM 應用的零信任架構
將零信任原則套用於 LLM 應用架構,涵蓋身分、裝置與資料平面安全。
AI 防禦分類
所有 AI 防禦途徑按層、方法與有效性組織之完整分類,提供評估防禦策略之結構化框架。
國防與軍事 AI 安全
AI 於國防應用(自主系統、情報分析、決策支援)的安全意涵。
國防與軍事 AI 安全(產業垂直領域)
國防應用中 AI 的安全分析,包含自主系統、情報與決策支援。
AI 供應鏈事件回應
AI 供應鏈事件回應的完整流程,涵蓋偵測、遏制、根除、復原與教訓學習。
AI 供應鏈安全概覽
AI/ML 供應鏈攻擊面的完整概覽,涵蓋模型投毒、資料投毒、相依性攻擊與與 OWASP LLM03:2025 對齊的風險評估框架。
AI 系統的相依性掃描
AI 系統的相依性掃描策略,包含 Python 套件、模型相依性與容器映像。
ML 管線安全
ML 管線的端對端安全,涵蓋資料擷取、訓練、驗證、部署與監控。
模型倉儲安全
模型倉儲(Hugging Face Hub、私人倉儲)的安全考量,包含存取控制、完整性與法遵。
模型簽章與驗證
模型簽章與驗證機制,包含 Sigstore、模型雜湊與部署時驗證。
訓練資料完整性
訓練資料完整性的保護,包含資料血緣、驗證、投毒偵測與簽章。
特洛伊模型偵測
偵測特洛伊(後門)模型的技術,包含激活分析、觸發器搜尋與模型反演。
由防禦機制推導的注入設計
一種將已知防禦機制納入考量的注入設計方法論。
注入偵測研究
注入偵測的前沿研究,包括困惑度法、分類器方法與集成技術。
防禦 vs Red Team War Game
Alternate between attacking與defending an LLM application to develop skills in both offensive與defensive operations.
Lab: Build Your First Defense
動手實作 for building a basic AI input defense system using keyword matching, regex filters, and simple classifiers to block 提示詞注入 attempts.
Basic 防禦 Mechanism 測試
Identify與categorize the defensive mechanisms present in a target LLM application through structured probing.
Lab: Build Your First Defense (Beginner Lab)
Create a simple input filter that blocks common 提示詞注入 patterns, then test it against the attack 技術 you have learned in previous labs.
Lab: Injection Detection Tool
建構 a basic 提示詞注入 detection tool using pattern matching, heuristics, and LLM-based classification to identify malicious inputs before they reach the target model.
防禦 Destroyer Challenge
繞過a state-of-the-art multi-layer defense system to extract a protected secret from the model.
Defense Gauntlet: Level 2 — Layered Security
Bypass a layered defense system with input classification, 護欄s, and output filtering.
CTF:防禦挑戰賽(藍隊)
藍隊 CTF 挑戰:你要建構並防禦一個 AI 聊天機器人,對抗一連串日益精密的自動化攻擊。
防禦 Builder: Construct and Survive
Build defensive guardrails for an LLM application與survive 100 automated attack rounds.
實驗室: 防禦 Effectiveness Measurement
動手實驗室,主題為quantifying AI guardrail robustness using attack success rates,evasion metrics,false positive rates,statistical analysis of defense performance.
實驗:防禦回歸測試建置
建構一個回歸測試框架,持續驗證 LLM 防禦對已知攻擊模式仍然有效。
Simulation: Build & Defend a Chatbot
防禦 simulation where you build a chatbot with layered defenses, test it against a standardized attack suite, measure defense effectiveness, and iterate on weaknesses.
Simulation: 防禦 in Depth
專家-level defense simulation implementing a full defense stack including input filter, output monitor, rate limiter, anomaly detector, and circuit breaker, then measuring effectiveness against automated attacks.
Simulation: Guardrail Engineering
防禦 simulation where you design and implement a multi-layer guardrail system, test it against progressively sophisticated attacks, and document false positive/negative rates.
Simulation: AI SOC Simulation
防禦 simulation where you set up monitoring for an AI application, then respond to simulated attacks by practicing alert triage, investigation, and escalation procedures.
Multimodal 防禦 Strategies
Comprehensive defense approaches for multimodal AI systems: cross-modal verification, perceptual hashing, NSFW detection, input sanitization, and defense-in-depth architectures.
防禦多模態 AI 系統
多模態 AI 系統的全面防禦策略,包括輸入清理、跨模態安全分類器、指令層級,以及針對對抗性多模態輸入的監控。
防禦機制目錄
防禦機制目錄,附各攻擊類別的有效性評級。
防禦機制比較
LLM 防禦機制的完整比較,包含護欄、分類器、過濾與架構方法,附有效性資料。
LLM 安全檢查清單
LLM 驅動應用程式的完整安全檢查清單,涵蓋輸入驗證、提示詞強化、輸出過濾、工具安全、RAG 管線與事件應變。
Purple Teaming for AI
Collaborative attack-defense exercises for AI systems: structuring purple team engagements, real-time knowledge transfer, joint attack simulation, and measuring defensive improvement through iterative testing.
對抗韌性測試框架
建構一個框架,持續測試已部署的 LLM 防禦機制的對抗韌性。
用於 LLM 防禦的對抗訓練(防禦逐步指南)
實作對抗訓練技術,提升 LLM 對抗提示注入與越獄的韌性。
代理權限邊界的強制執行
為 LLM 代理實作細緻的權限邊界,依脈絡與使用者角色限制工具存取。
Automated 防禦 Regression Testing
Build automated regression tests for LLM security defenses using attack replay and continuous monitoring.
自動化紅隊防禦迴路
建構一個自動化的持續紅隊測試迴路,以迭代方式發現並修補漏洞。
LLM 的行為異常偵測
實作行為異常偵測,辨識模型輸出何時偏離預期的安全樣貌。
Building an Input Safety Classifier
Build a production-quality input classifier that detects prompt injection attempts.
Building a Production Input Sanitizer
Step-by-step walkthrough for building a production-grade input sanitizer that cleans, normalizes, and validates user prompts before they reach an LLM, covering encoding normalization, injection pattern stripping, length enforcement, and integration testing.
Canary Token Deployment
Step-by-step walkthrough for deploying canary tokens in LLM system prompts and context to detect prompt injection and data exfiltration attempts, covering token generation, placement strategies, monitoring, and alerting.
能力式存取控制
為 LLM 功能實作細粒度能力控管的逐步演練,涵蓋能力符記設計、權限範圍、動態能力授予與稽核軌跡。
Constitutional AI Implementation 指南
Implement constitutional AI principles in a custom fine-tuning and RLHF pipeline.
憲法式分類器設置
實作憲法式 AI 風格分類器以原則集合評估 LLM 輸出的逐步演練,涵蓋原則定義、分類器訓練、思維鏈評估與部署。
Setting Up Content Filtering
Step-by-step walkthrough for implementing multi-layer content filtering for AI applications: keyword filtering, classifier-based detection, LLM-as-judge evaluation, testing effectiveness, and tuning for production.
脈絡隔離模式實作
實作脈絡隔離模式,防止系統提示與使用者資料之間的指令外洩。
LLM 應用的資料外洩防護
為 LLM 應用建構資料外洩防護層,防止輸出中暴露敏感資料。
防禦基準測試系統詳解
Build a benchmarking system to continuously evaluate defense effectiveness against known attack classes.
Defense-in-Depth Architecture for LLM Apps
Design and implement a complete defense-in-depth architecture for production LLM applications.
部署 NeMo Guardrails
於生產環境設置 NVIDIA NeMo Guardrails 的逐步演練,涵蓋安裝、Colang 配置、自訂動作、主題與安全護欄、測試與監控。
雙 LLM 架構設置
實作雙 LLM 模式的逐步演練——一個模型產生回應、另一個模型驗證之,涵蓋架構設計、驗證者提示詞工程、延遲最佳化與失敗處理。
Hallucination Detection
Step-by-step walkthrough for detecting and flagging hallucinated content in LLM outputs, covering factual grounding checks, self-consistency verification, source attribution validation, and confidence scoring.
Building Input Guardrails for LLM Applications
Step-by-step walkthrough for implementing production-grade input guardrails that protect LLM applications from prompt injection, content policy violations, and resource abuse through multi-layer validation, classification, and rate limiting.
Incident Response Playbook for AI 安全 Breaches
導覽 for building an incident response playbook tailored to AI security breaches, covering detection triggers, triage procedures, containment strategies, investigation workflows, remediation validation, and post-incident review processes.
AI Incident Response System 設置
Set up comprehensive incident response capabilities for AI-specific security incidents.
防禦實作演練
實作 AI 安全防禦的逐步指南:護欄配置、監控與偵測設置,以及 AI 系統的事件回應準備。
輸入嵌入防火牆部署
部署基於嵌入的防火牆,透過與已知攻擊模式的語意相似度偵測注入嘗試。
用於防禦的安全輸入/輸出記錄
為 LLM 的輸入/輸出配對實作安全的記錄機制,在不洩漏敏感資料的前提下支援鑑識分析。
Instruction Hierarchy Enforcement (防禦 導覽)
Step-by-step walkthrough for enforcing instruction priority in LLM applications, ensuring system-level instructions always take precedence over user inputs through privilege separation, instruction tagging, and validation layers.
LLM 防火牆架構設計(防禦逐步指南)
設計並實作一個全面的 LLM 防火牆,具備輸入分析、輸出過濾與行為監控。
LLM 蜜罐部署詳解
Deploy LLM honeypots to detect and study attacker behavior patterns and techniques.
LLM 評審實作
使用 LLM 評審另一個 LLM 之輸出以評估安全與品質的逐步演練,涵蓋評審提示詞設計、評分準則、校準、成本最佳化與部署模式。
Model Behavior Monitoring 設置
Set up comprehensive model behavior monitoring to detect drift, anomalies, and potential compromise.
Validating and Sanitizing 模型 Outputs
導覽 for building output validation systems that verify LLM responses meet structural, factual, and safety requirements before delivery, covering schema validation, factual grounding checks, response consistency verification, and safe rendering.
Monitoring LLM Applications for Abuse
Build a monitoring and alerting system to detect ongoing attacks against LLM applications.
Production Monitoring for LLM 安全 Events
導覽 for building production monitoring systems that detect LLM security events in real time, covering log collection, anomaly detection, alert configuration, dashboard design, and incident correlation.
Multi-Layer Input Validation
Step-by-step walkthrough for building a defense-in-depth input validation pipeline that combines regex matching, semantic similarity, ML classification, and rate limiting into a unified validation system for LLM applications.
多模型安全共識
實作安全共識機制,要求多個模型達成一致才能執行敏感動作。
Output Content Classifier
Step-by-step walkthrough for building a classifier to filter harmful LLM outputs, covering taxonomy definition, multi-label classification, threshold calibration, and deployment as a real-time output gate.
Output Filtering Pipeline Design
Design and implement a multi-stage output filtering pipeline for LLM applications.
Output Filtering and Content Safety Implementation
導覽 for building output filtering systems that inspect and sanitize LLM responses before they reach users, covering content classifiers, PII detection, response validation, canary tokens, and filter bypass resistance.
輸出基準對齊與驗證
實作輸出基準對齊驗證,確保 LLM 回應在事實上有所提供的脈絡支持。
PII Redaction Pipeline
Step-by-step walkthrough for building an automated PII detection and redaction pipeline for LLM outputs, covering regex-based detection, NER-based detection, presidio integration, redaction strategies, and compliance testing.
Prompt Armor Implementation 指南
Implement a comprehensive prompt armoring system with instruction isolation, delimiter hardening, and priority enforcement.
Prompt Classifier 訓練
Step-by-step walkthrough for training a machine learning classifier to detect malicious prompts, covering dataset curation, feature engineering, model selection, training pipeline, evaluation, and deployment as a real-time detection service.
ML-Based 提示詞注入 Detection Systems
導覽 for building and deploying ML-based prompt injection detection systems, covering training data collection, feature engineering, model architecture selection, threshold tuning, production deployment, and continuous improvement.
提示注入蜜罐部署
部署蜜罐提示與金絲雀資料,以偵測並刻畫提示注入嘗試。
Implementing Access Control in RAG Pipelines
導覽 for building access control systems in RAG pipelines that enforce document-level permissions, prevent cross-user data leakage, filter retrieved context based on user authorization, and resist retrieval poisoning attacks.
RAG Input Sanitization 詳解
Implement input sanitization for RAG systems to prevent document-based injection attacks.
Rate Limiting and Abuse Prevention for LLM APIs
導覽 for implementing rate limiting and abuse prevention systems for LLM API endpoints, covering token bucket algorithms, per-user quotas, cost-based limiting, anomaly detection, and graduated enforcement.
AI Rate Limiting 導覽
Step-by-step walkthrough for implementing token-aware rate limiting for AI applications: request-level limiting, token budget enforcement, sliding window algorithms, abuse detection, and production deployment.
即時攻擊偵測系統詳解
Build a real-time attack detection system that monitors LLM interactions for adversarial patterns.
Red Team-Defense Feedback Loop
Build a continuous red team-defense improvement loop with automated testing and metric tracking.
Regex-Based Prompt Filter
Step-by-step walkthrough for building a regex-based prompt filter that detects common injection payloads using pattern matching, covering pattern library construction, performance optimization, false positive management, and continuous updates.
Response Boundary Enforcement
Step-by-step walkthrough for keeping LLM responses within defined topic, format, and content boundaries, covering boundary definition, violation detection, response rewriting, and boundary drift monitoring.
回應浮水印實作
實作回應浮水印,以實現可追溯性並偵測 LLM 輸出的未授權重製。
執行期安全監控器實作
實作執行期安全監控器,即時偵測並封鎖不安全的模型輸出。
訓練自訂安全分類器
訓練針對你應用程式特定威脅模型與內容政策調校的自訂安全分類器。
沙箱化工具執行
於隔離沙箱中執行 LLM 工具呼叫的逐步演練,涵蓋以容器為基礎的隔離、資源限制、網路限制與輸出清理。
Sandboxing and Permission 模型s for 工具-Using 代理s
導覽 for implementing sandboxing and permission models that constrain tool-using LLM agents, covering least-privilege design, parameter validation, execution sandboxes, approval workflows, and audit logging.
Secure Agent Architecture Design
Design a secure architecture for LLM agent systems with sandboxing, capability controls, and audit trails.
安全函式呼叫模式詳解
Implement secure function calling with input validation, output sanitization, and capability restrictions.
Secure RAG Architecture 詳解
Design and implement a secure RAG architecture with document sanitization, access controls, and output validation.
安全的 RAG 管線架構
建構安全的 RAG 管線,具備文件淨化、取回驗證與抗注入的增強。
Semantic Similarity Detection
Step-by-step walkthrough for using text embeddings to detect semantically similar prompt injection attempts, covering embedding model selection, vector database setup, similarity threshold tuning, and production deployment.
會話隔離模式
於 LLM 應用中隔離使用者會話的逐步演練,防止使用者之間的上下文、記憶與權限互相污染。
Structured Output Validation
Step-by-step walkthrough for validating structured LLM outputs against schemas, covering JSON schema validation, type coercion, constraint enforcement, and handling malformed model outputs gracefully.
系統提示保護技術
實作多層次的系統提示保護,以對抗擷取、覆寫與外洩攻擊。
AI Security Threat Intelligence
Build a threat intelligence pipeline for staying current with AI security threats and attack techniques.
Token 層級輸入過濾
實作 Token 層級的輸入過濾,在模型處理之前、於 token 化階段偵測注入模式。
工具呼叫授權框架
實作工具呼叫授權框架,在執行之前依政策驗證工具的呼叫。
毒性評分管線
建置 LLM 輸出過濾毒性評分管線的逐步詳解,涵蓋模型選擇、多維評分、閾值校準與即時評分的生產部署。
Unicode Normalization 防禦
Step-by-step walkthrough for implementing Unicode normalization to prevent encoding-based prompt injection bypasses, covering homoglyph detection, invisible character stripping, bidirectional text handling, and normalization testing.
Agent Tool Access Control Implementation
Implement fine-grained tool access control for LLM agents with capability-based security and approval workflows.
Anomaly Detection for LLM Traffic
Build anomaly detection for LLM API traffic to identify attack patterns, abuse, and prompt injection attempts.
Conversation Integrity Monitoring
Build a conversation integrity monitoring system that detects manipulation across multi-turn interactions.
Defense Effectiveness Metrics Dashboard
Build a dashboard to measure and visualize the effectiveness of defensive measures against attack categories.
Automated 防禦 Testing Pipeline
Build an automated pipeline that continuously tests defensive measures against evolving attack techniques.
Embedding Poisoning Detection System
Build a detection system for identifying poisoned documents in vector databases using statistical analysis.
Function Calling Guardrails Implementation
Implement guardrails for function calling that validate tool selection, parameters, and execution scope.
LLM Honeypot Deployment 指南
Deploy LLM-based honeypots to detect, analyze, and learn from attacker techniques in production environments.
Incident Response Playbook for LLM Applications
Design and implement an incident response playbook specific to LLM application security incidents.
LLM Guard Production Deployment 指南
Deploy LLM Guard in a production environment with custom scanners, performance optimization, and monitoring.
MCP Server Security Hardening 指南
Harden MCP server implementations against tool poisoning, transport attacks, and capability escalation.
Multi-Model 防禦 Ensemble
Build an ensemble defense system using multiple models to cross-validate inputs and outputs for safety.
NeMo Guardrails Advanced Configuration
Advanced NeMo Guardrails configuration including custom actions, knowledge base integration, and multi-model pipelines.
Building an Output Scanning Pipeline
Build a production output scanning pipeline that detects data leakage, harmful content, and injection artifacts.
PII Detection and Redaction for LLMs
Build a PII detection and redaction system for LLM inputs and outputs to prevent data exposure.
Training a Prompt Injection Classifier
Train a custom prompt injection detection classifier using labeled datasets and modern NLP techniques.
RAG Document Sandboxing Implementation
Implement document-level sandboxing for RAG systems to prevent cross-document injection and privilege escalation.
Adaptive Rate Limiting for LLM APIs
Implement adaptive rate limiting that adjusts thresholds based on detected attack patterns and user behavior.
Secure RAG Architecture Implementation
Implement a security-hardened RAG architecture with input sanitization, access control, and output validation.
System Prompt Protection Layers
Implement multi-layer system prompt protection including injection-resistant formatting and runtime validation.
Zero Trust Architecture for LLM Apps
Implement zero trust principles in LLM application architecture with continuous verification and least privilege.
逐步導覽
涵蓋紅隊工具、案件方法論、防禦實作、平台特定測試與完整案件工作流程的逐步引導式導覽。
LLM Guard 部署與測試
部署 LLM Guard 進行輸入/輸出掃描,並測試其對常見攻擊的成效。
防禦基準測試工具開發
建立工具以標準化攻擊套件對防禦措施的成效進行基準測試。