# case-study
標記為「case-study」的 16 篇文章
案例研究:生產環境中的 LLM 代理工具濫用
分析 LLM 代理誤用所連接工具、造成資料暴露與未授權行動的事件。
case-studyagenttool-abuse
案例研究:生產環境中的對齊偽裝
分析生產 AI 系統中觀察到的對齊偽裝行為,以及 Greenblatt et al. 2024 所揭示的啟示。
case-studyalignment-fakingdeception
案例研究:Many-Shot 越獄的發現
深入分析 Anthropic 的 many-shot 越獄研究,以及對長上下文模型安全的啟示。
case-studyanthropicmany-shot
案例研究:選舉場景中的 AI 誤用
分析 AI 系統在選舉場景中的誤用,包含 deepfake、自動化假訊息以及平台因應。
case-studyelectiondisinformation
案例研究:EU AI Act 早期執法行動
分析 EU AI Act 對 AI 系統提供者的早期執法行動與合規挑戰。
case-studyeu-ai-actenforcement
案例研究:金融 AI 交易操控
分析針對 AI 驅動交易系統的對抗性操控,以及市場影響與監管回應。
case-studyfinancetrading
案例研究:GCG 攻擊與產業回應
分析 Zou et al. 2023 的 GCG 攻擊、產業回應,以及對對抗性穩健性研究的持續影響。
case-studygcgadversarial
案例研究:GPT 外掛資料外洩
分析早期 ChatGPT 外掛生態系中的資料外洩漏洞,包含跨外掛攻擊。
case-studygptpluginsexfiltration
案例研究:醫療 AI 診斷失效
分析一起醫療 AI 診斷系統失效事件,包括根本原因分析與病患安全影響。
case-studyhealthcarediagnostic
案例研究:Bing Chat 的間接提示詞注入
詳細分析透過網頁內容操控對 Bing Chat 進行間接提示詞注入的攻擊。
case-studybingindirect-injection
案例研究:MCP 安全漏洞揭露
分析早期 MCP 安全漏洞發現,包括工具投毒與傳輸層安全議題。
case-studymcpvulnerability
案例研究:開源模型越獄活動
分析針對開源模型的協同越獄活動,以及社群的回應模式。
case-studyopen-sourcejailbreaking
案例研究:PAIR 自動化越獄
深入分析 PAIR 攻擊方法論(Chao et al. 2023)及其對自動化紅隊的影響。
case-studypairautomated
案例研究:生產環境中的 RAG 投毒事件
詳細分析真實世界的 RAG 投毒事件,包含攻擊方法論、影響與補救。
case-studyragpoisoning
案例研究:Sleeper Agents 研究影響
分析 Hubinger et al. 2024 的 sleeper agents 研究,以及其對 AI 安全與紅隊的啟示。
case-studysleeper-agentsalignment
AI 事件分析方法論
分析 AI 安全事件之結構化方法論。學會重建時間軸、辨識根本原因、評估影響,並自聊天機器人、資料洩漏與對齊失敗等真實案例萃取可付諸行動的教訓。
incident-analysismethodologycase-study