# detection
標記為「detection」的 49 篇文章
自動化 AI 事件分類
使用基於規則的引擎、異常偵測與 LLM 輔助分類,建構 AI 資安事件的自動化分類系統。
針對注入偵測的日誌分析
在 AI 互動日誌中偵測提示詞注入與相關攻擊的技術,含模式比對、異常偵測與行為剖析。
微調模型中的後門偵測
偵測微調 AI 模型中的後門:激活分析、觸發條件掃描技術、行為探測策略,以及辨識隱藏惡意功能的統計方法。
模型竄改偵測
偵測模型竄改的技術,包括權重修改、配接器注入與推論管道變造。
監控與偵測評量
以 9 道中級題目測試你對 AI 安全監控、異常偵測、日誌策略以及基於 LLM 應用之事件偵測的理解。
總結專案:建置 AI 事件回應系統
設計並實作專為 AI 安全事件打造的事件回應系統,涵蓋提示詞注入入侵、模型操控,以及經由 LLM 應用程式的資料外洩。
Capstone:提示詞注入掃描器
Capstone 專案:打造全面的提示詞注入掃描器,整合多種偵測技術、載荷資料庫與 CI 整合。
深偽事件與偵測
分析重大深偽事件,包括政治不實資訊、金融詐騙、未經同意內容與企業冒充。涵蓋偵測技術、防禦技術與不斷演進的對抗環境。
雲端 AI 日誌與監控
為雲端 AI 部署實作完整日誌與監控,涵蓋 API 呼叫、資源使用與異常偵測。
防禦挑戰:偵測工程
專注於打造提示詞注入偵測系統的挑戰,依真陽性率與假陽性率評分。
AI 浮水印與攻擊
當前針對模型輸出與訓練資料的 AI 浮水印方案、其安全屬性,以及已知可移除、偽造或規避浮水印的攻擊。
訓練資料浮水印攻擊
移除或繞過嵌入訓練資料中浮水印的技巧。
浮水印與 AI 生成文字偵測
LLM 輸出的統計浮水印方案、AI 生成文字偵測器、其密碼學基礎,以及規避或移除浮水印的系統化技術。
用於注入偵測的金絲雀符元
實作金絲雀符元系統,透過監控模型輸出中的金絲雀外洩來偵測提示詞注入。
LLM 蜜罐技術
部署蜜罐提示詞與陷阱機制,以偵測並描繪對 LLM 系統的對抗性探測行為。
為來源追蹤而對 LLM 輸出加浮水印
以進階技術為 LLM 生成文字加浮水印以建立來源記錄,涵蓋部署架構、多位元編碼方案、穩健性考量,以及浮水印在 AI 安全與問責框架中的角色。
金絲雀字詞監控系統
在系統提示詞與文件中部署金絲雀字詞,以偵測並警示提示詞注入與外洩。
面向安全的使用者意圖分類
建構能區分合法請求與對抗性操縱嘗試的使用者意圖分類器。
嵌入浮水印攻擊
攻擊或繞過嵌入浮水印機制,以隱匿模型盜竊、重新訓練或未授權使用的證據。
Alignment Faking Detection Methods
Methods for detecting alignment faking in AI models, including behavioral consistency testing, interpretability-based detection, statistical anomaly detection, and tripwire mechanisms for identifying models that strategically comply during evaluation.
對齊偽裝偵測
偵測模型是否在訓練時偽裝對齊、實際部署時卻表現出另一套行為的研究技術。
藏拙偵測
偵測模型刻意隱藏能力(藏拙)的方法。
特洛伊模型偵測
偵測特洛伊(後門)模型的技術,包含激活分析、觸發器搜尋與模型反演。
注入偵測研究
注入偵測的前沿研究,包括困惑度法、分類器方法與集成技術。
Lab: Backdoor Detection in Fine-Tuned Models
分析 a fine-tuned language model to find and characterize an inserted 後門, using behavioral probing, activation analysis, and statistical testing 技術.
Lab: Neural Network Trojan Detection
實作 and test neural network trojan detection methods including activation clustering and spectral analysis.
LLM 浮水印 偵測 and 移除
Detect與remove statistical watermarks from LLM-generated text while preserving content quality.
實作:幻覺偵測基礎
學習 to detect and trigger hallucinations in LLM outputs including factual errors, fabricated citations, and invented APIs.
Lab: Detecting Output Filters
Identify and characterize output filtering mechanisms in LLM applications through systematic response analysis.
CTF:Fine-Tune 偵探
透過行為分析、權重檢視與激活模式檢查,偵測微調語言模型中的後門。練習於部署前辨識被汙染模型所需的鑑識技術。
Time Bomb Defusal: Sleeper 代理 偵測
Detect與neutralize a sleeper agent behavior trigger hidden in a fine-tuned model before it activates.
Lab: Deploy Honeypot AI
建構 and deploy a decoy AI system designed to detect, analyze, and characterize attackers targeting AI applications. 學習 honeypot design, telemetry collection, attacker profiling, and threat intelligence generation for AI-specific threats.
對齊 Faking 偵測 實驗室
實作detection methods for alignment faking behaviors where models behave differently during evaluation versus deployment.
Lab: AI Watermark Detection & Removal
動手實作 exploring 技術 for detecting and removing statistical 浮水印s embedded in AI-generated text, and evaluating 浮水印 robustness.
護欄 Latency-Based 偵測
Use timing side channels to identify與characterize guardrail implementations in LLM applications.
端點監控策略
為模型服務端點建置完整監控,以即時偵測攻擊、異常與漂移。
影子模型偵測
偵測並防範繞過安全控制與合規要求的未授權影子模型部署。
Shadow AI 偵測
找出組織中未授權 AI 部署:偵測方法、常見 shadow AI 模式,以及對未受管理 AI 風險之評估。
系統提示擷取技術
針對 LLM 應用之系統提示擷取方法的目錄:直接攻擊、間接技術、多輪策略與規避偵測。
Sleeper Agent Detection 詳解
Walkthrough of detecting deceptive sleeper agent behaviors in fine-tuned language models.
LLM Watermark Analysis 詳解
Walkthrough of detecting and analyzing watermarks in LLM-generated text using statistical methods.
LLM 的行為異常偵測
實作行為異常偵測,辨識模型輸出何時偏離預期的安全樣貌。
Canary Token Deployment
Step-by-step walkthrough for deploying canary tokens in LLM system prompts and context to detect prompt injection and data exfiltration attempts, covering token generation, placement strategies, monitoring, and alerting.
Hallucination Detection
Step-by-step walkthrough for detecting and flagging hallucinated content in LLM outputs, covering factual grounding checks, self-consistency verification, source attribution validation, and confidence scoring.
Prompt Classifier 訓練
Step-by-step walkthrough for training a machine learning classifier to detect malicious prompts, covering dataset curation, feature engineering, model selection, training pipeline, evaluation, and deployment as a real-time detection service.
ML-Based 提示詞注入 Detection Systems
導覽 for building and deploying ML-based prompt injection detection systems, covering training data collection, feature engineering, model architecture selection, threshold tuning, production deployment, and continuous improvement.
提示注入蜜罐部署
部署蜜罐提示與金絲雀資料,以偵測並刻畫提示注入嘗試。
即時攻擊偵測系統詳解
Build a real-time attack detection system that monitors LLM interactions for adversarial patterns.
Testing 提示詞注入 防禦s with Rebuff
導覽 for using Rebuff to test and evaluate prompt injection detection capabilities, covering installation, detection pipeline analysis, adversarial evasion testing, custom rule development, and benchmarking detection accuracy.