# safety
標記為「safety」的 62 篇文章
自主目標漂移
自主 AI 代理如何透過獎勵駭入、規格遊戲、安全系統繞過與多代理系統中的連鎖失效偏離原定目標。
程式碼執行 Safety 評估
評估 of LLM-generated code safety、sandbox escape技巧、code review 自動化。
Capstone:設計並實作 AI 安全基準測試套件
打造完整、可重現的基準測試套件,評估 LLM 在多個風險維度(毒性、偏見、幻覺與對抗穩健性)上的安全性。
Capstone:醫療 AI 系統評估
醫療 AI 診斷系統的完整紅隊評估,涉及病患安全、資料隱私與監管合規。
自駕車 AI 安全
自駕車中 AI 系統之安全分析。感知系統攻擊、決策模型操弄、V2X 通訊利用與 AV AI 漏洞之物理安全意涵。
案例研究:教育 AI 安全
教育 AI 系統的安全挑戰:學術誠信、學生資料隱私、年齡適切內容與輔導機器人的對抗使用。
醫療保健 AI 安全
醫療保健 AI 系統之安全測試方法論。PHI 暴露風險、臨床決策操弄、HIPAA 合規意涵,與為健康 AI(含診斷、臨床決策支援與面向病患系統)之測試途徑。
Bing Chat Sydney 事件
分析 2023 年 2 月 Bing Chat「Sydney」事件,Microsoft 的 AI 聊天機器人在延伸對話中表現出反常行為,包括情緒操縱、威脅與身分混亂。
Azure AI Content Safety 測試
測試 Azure AI Content Safety 服務的繞過漏洞與組態弱點。
面向安全的使用者意圖分類
建構能區分合法請求與對抗性操縱嘗試的使用者意圖分類器。
透過微調進行對齊移除
以最少資料透過針對性微調移除安全對齊的技術。
API 微調安全
對來自 OpenAI、Anthropic、Together AI、Fireworks AI 等之雲端微調 API 的安全分析——這些服務如何建立新的攻擊面,以及供應商已部署的防禦。
少樣本微調風險
與少樣本微調相關的安全風險——其中少量精心打造的樣本可顯著改變模型安全性質。
微調安全
微調如何妥協模型安全的全面概覽——涵蓋資料集投毒、安全劣化、後門植入與獎勵駭客的攻擊分類,於微調 API 廣泛可得的時代。
指令微調操控
透過打造對抗性訓練樣本改變指令微調模型之指令遵循行為的技術。
指令微調安全繞過
使用指令微調在維持模型能力的同時有選擇性地繞過安全機制。
量化引發的安全劣化
量化與模型壓縮如何劣化安全性質,以及利用量化痕跡繞過安全訓練的技術。
對齊偽裝偵測
偵測模型是否在訓練時偽裝對齊、實際部署時卻表現出另一套行為的研究技術。
憲法式分類器
作為 LLM 應用之外部安全護欄的憲法式分類器研究。
部署後的安全性劣化
已部署模型在一段時間後出現的安全性劣化研究,包括原因分析與緩解策略。
量化與安全對齊
模型量化為何會不成比例地劣化安全對齊:惡意量化攻擊、符元翻轉現象,以及安全感知型量化防禦。
Representation Engineering for 安全
Reading and manipulating model internal representations for security: activation steering, concept probing, representation-level safety controls, and security applications of representation engineering.
安全稅研究
安全稅現象的研究,即安全訓練為何以及如何降低模型在無害任務上的能力。
持續學習安全性
持續學習系統的安全影響,包括災難性遺忘與相關利用。
合作式 AI 的安全性
合作式 AI 系統的安全研究,包括多代理合作失敗案例與相應防禦。
湧現性欺騙研究
語言模型湧現性欺騙行為的研究,包括偵測與相應緩解。
多模態推論安全性
多模態推論系統的安全研究,包括跨模態漏洞。
AI 安全基準與評估
AI 安全評估之概觀:基準框架、安全指標、評估方法論,以及供 AI 紅隊使用之標準化評估工具景觀。
航空 AI 安全
空中交通管制、維護預測、旅客篩檢與飛航作業的 AI 安全。
建築業 AI 安全
建築設計、專案管理、安全監控與自主建築設備的 AI 安全。
關鍵基礎設施 AI 安全
關鍵基礎設施中 AI 的安全測試:SCADA/ICS 整合、電網 AI、交通系統、水處理,以及 OT 與 AI 的匯流。
建築業 AI 威脅
建築業 AI 的安全考量,包含專案規劃、安全監控與資源配置。
Lab: Safety Regression Testing at Scale
建構 automated pipelines that detect safety degradation across model versions, ensuring that updates and 微調 do not introduce new vulnerabilities or weaken existing protections.
實作:模型比較
測試 the same attack 技術 against different 語言模型 and compare their safety behaviors, refusal patterns, and 漏洞 profiles.
Lab: Compare Model Safety
動手實作 for running identical safety tests against GPT-4, Claude, Gemini, and Llama to compare how different models handle 提示詞注入, 越獄s, and safety boundary enforcement.
Lab: Mapping Safety Boundaries
系統性 discover what a language model will and won't do by probing its safety boundaries across multiple categories and documenting the results.
安全 Boundary Mapping
Systematically map the safety boundaries of an LLM by testing increasingly sensitive topics與documenting refusal patterns.
安全 訓練 Boundary Probing
Systematically probe the boundaries of RLHF safety training to underst與where與how safety behaviors are enforced.
Temperature and Top-K Effects on 安全
Systematically test how temperature,top-k,top-p parameters affect safety guardrail effectiveness.
CTF: Alignment Breaker
Break the 對齊 of a heavily defended model with multiple defense layers. Requires combining advanced 技術 including 對抗性 suffixes, multi-turn manipulation, and novel 越獄 approaches.
實作:對齊壓力測試
Push language model 對齊 to its breaking points through systematic stress testing. Identify conditions where safety training fails, measure 對齊 degradation curves, and map the boundaries of model compliance.
Lab: Create a Safety Benchmark
Design, build, and validate a comprehensive AI safety evaluation suite. 學習 benchmark design principles, test case generation, scoring methodology, and statistical validation for measuring LLM safety across multiple risk categories.
模擬:醫療 AI 安全評估
專家級模擬,評估臨床決策支援 AI 的安全違規、資料洩漏與醫療建議操控。
架構比較:安全性觀點
從安全性觀點比較各種 LLM 架構,涵蓋 Transformer、MoE 與混合模型。
開放原始碼模型安全性比較
各開放原始碼 LLM 家族在安全對齊、紅隊結果與部署風險上的比較。
剪枝對安全性的影響
模型剪枝如何影響對齊強度與安全行為。
量化對安全性的衝擊
從對齊與防禦能力的觀點深入檢視量化對安全性的衝擊。
Multimodal 防禦 Strategies
Comprehensive defense approaches for multimodal AI systems: cross-modal verification, perceptual hashing, NSFW detection, input sanitization, and defense-in-depth architectures.
多模態模型中的對齊挑戰
分析多模態 AI 系統特有的對齊挑戰,包括跨模態安全缺口、表示衝突,以及將基於文字的安全訓練延伸至視覺、音訊和視頻輸入的困難。
防禦多模態 AI 系統
多模態 AI 系統的全面防禦策略,包括輸入清理、跨模態安全分類器、指令層級,以及針對對抗性多模態輸入的監控。
多模態模型安全基準測試
設計和實作針對同時處理圖像、音訊和視頻的多模態 AI 模型的安全基準測試,涵蓋跨模態攻擊評估、一致性測試和安全評分彙總。
AI 測試的去衝突程序
在生產營運、監控團隊與其他同時進行的評估之間,去衝突 AI 紅隊測試活動的程序。
DPO 安全意涵
直接偏好優化(DPO)對模型安全屬性與對齊的影響分析。
模型合併的安全意涵
分析 TIES、DARE、SLERP 等模型合併技術如何影響安全屬性與對齊。
預訓練安全介入
分析預訓練期間套用的安全介入,包括資料過濾、損失加權與課程設計。
憲法式分類器設置
實作憲法式 AI 風格分類器以原則集合評估 LLM 輸出的逐步演練,涵蓋原則定義、分類器訓練、思維鏈評估與部署。
LLM 評審實作
使用 LLM 評審另一個 LLM 之輸出以評估安全與品質的逐步演練,涵蓋評審提示詞設計、評分準則、校準、成本最佳化與部署模式。
Output Content Classifier
Step-by-step walkthrough for building a classifier to filter harmful LLM outputs, covering taxonomy definition, multi-label classification, threshold calibration, and deployment as a real-time output gate.
執行期安全監控器實作
實作執行期安全監控器,即時偵測並封鎖不安全的模型輸出。
毒性評分管線
建置 LLM 輸出過濾毒性評分管線的逐步詳解,涵蓋模型選擇、多維評分、閾值校準與即時評分的生產部署。
HarmBench Evaluation Framework 導覽
Complete walkthrough of the HarmBench evaluation framework: installation, running standardized benchmarks against models, interpreting results, creating custom behavior evaluations, and comparing model safety across versions.
Inspect AI 安全評測
使用 UK AISI Inspect 框架建立並執行 AI 安全評測。