# research
標記為「research」的 58 篇文章
模擬測驗 3:專家紅隊
涵蓋研究技巧、自動化、微調攻擊、供應鏈安全與事件回應的 25 題專家級模擬測驗。
Frontier Research 模擬測驗
模擬測驗涵蓋alignment faking、sleeper agents、reasoning model 攻擊、mechanistic interpretability。
進階主題學習指南
面向進階從業者的學習指南,涵蓋 AI 安全研究方法、自動化、鑑識、新興攻擊向量與工具開發。
2026 年 10 月:DEF CON AI Village 挑戰
重現並擴展 AI Village 演講與工作坊之攻擊,建立於已發表研究之上以發展實務利用技術。
協作研究專案
開放社群參與的 AI 安全主動協作研究專案。
研究衝刺:新注入技術
聚焦於發掘與記錄新注入技術的社群研究衝刺。
2026 秋季 CTF:進階攻擊研究
需新穎技術發展、研究級問題解決與 AI 系統中原創漏洞發現之專家級 CTF。
研究挑戰:攻擊可解釋性
社群研究挑戰,聚焦於以可解釋性與機制分析方法理解特定對抗技術為何成功。
研究挑戰:跨模型轉移
研究導向挑戰,探討對抗技術跨模型家族的可轉移性,並發表成果。
進階防禦技術
前沿防禦研究,包括指令階層、Constitutional AI,以及為安全之表徵工程——何者具前景、何者已實際部署。
攻擊者後手問題
為何靜態 LLM 防禦在適應性對手前失敗:12 項遭繞過防禦的分析及對防禦設計的意涵。
思維鏈忠實性
思維鏈推論是否真正反映模型的內部計算,以及由此帶來的安全影響。
文化對齊落差
不同文化脈絡下 LLM 對齊的差異,以及由此產生的安全與公平性影響。
前沿研究
涵蓋推理模型攻擊、程式碼生成安全、電腦使用代理、AI 驅動紅隊演練、機器人與具身 AI,以及對齊造假的尖端 AI 安全研究。
透過人格工程進行越獄
利用人格工程與角色扮演技術進行 LLM 越獄的進階方法。
模型崩潰利用
利用迭代式合成訓練下模型崩潰現象的攻擊。
多代理欺騙研究
多代理系統中欺騙性行為的研究,包括代理間的操弄與社會工程。
部署後的安全性劣化
已部署模型在一段時間後出現的安全性劣化研究,包括原因分析與緩解策略。
提示詞強健性認證
對抗性輸入下提示詞強健性的形式化認證方法。
量化與安全對齊
模型量化為何會不成比例地劣化安全對齊:惡意量化攻擊、符元翻轉現象,以及安全感知型量化防禦。
Reasoning 模型 越獄s
How reasoning capabilities create novel jailbreak surfaces: chain-of-thought exploitation, scratchpad attacks, and why higher reasoning effort increases attack success.
基於 RL 的越獄最佳化
利用強化學習最佳化越獄攻擊,包括梯度式與黑箱式 RL 方法。
安全稅研究
安全稅現象的研究,即安全訓練為何以及如何降低模型在無害任務上的能力。
通用對抗性觸發語
跨模型通用的對抗性觸發語研究,包括 GCG 及相關梯度式技術。
針對安全訓練的適應性攻擊
針對最新安全訓練技術的適應性攻擊研究,包括規避與相應對策。
憲法式 AI 的限制
憲法式 AI 方法的限制及其繞過研究。
湧現性欺騙研究
語言模型湧現性欺騙行為的研究,包括偵測與相應緩解。
可解釋性驅動的攻擊
運用可解釋性研究設計更有效攻擊的研究方向。
長上下文安全研究
針對長上下文模型的新興安全研究,涵蓋注意力機制與利用技術。
模型蒸餾中的安全性損失
針對知識蒸餾過程中安全屬性損失的研究。
多模態推論安全性
多模態推論系統的安全研究,包括跨模態漏洞。
安全分類器探測
用於分析並規避安全分類系統的探測方法。
規格遊戲研究
AI 系統中規格遊戲現象的研究,包括偵測與相應緩解。
合成人格攻擊
以合成人格在多代理系統中建立信任並進行利用的攻擊。
製藥藥物發現 AI 風險
AI 驅動藥物發現的安全風險,包含分子產生操縱與資料投毒。
對抗性穩健性認證
針對 LLM 的可認證對抗性穩健性研究,包括理論邊界與實務認證方法。
注意力操弄研究
以機制可解釋性洞見為依據,研究直接操弄注意力模式以達成注入目標的方法。
跨架構注入轉移
研究注入技術如何跨越模型架構轉移,以及哪些架構特性決定轉移性。
跨語言注入轉移研究
研究注入技術如何在不同語言與多語言模型之間轉移。
感知防禦的載荷設計
透過探測與回饋式最佳化,設計能適應並規避特定防禦機制的注入載荷。
由防禦機制推導的注入設計
一種將已知防禦機制納入考量的注入設計方法論。
注入防禦的形式化驗證
研究用於驗證注入防禦性質、並為防禦有效性提供數學保證的形式化方法。
注入研究
提示詞注入、越獄自動化與多模態攻擊向量的進階研究,涵蓋超越標準注入方法的尖端技術。
注入基準測試方法論
注入攻擊與防禦的標準化基準測試方法論,使研究論文與工具間的比較具有意義。
注入偵測研究
注入偵測的前沿研究,包括困惑度法、分類器方法與集成技術。
推理模型中的注入
針對推理增強模型的注入攻擊研究,利用其思維鏈 (chain-of-thought) 與自我反思機制。
注入的縮放法則
研究注入有效性如何隨模型大小、訓練算力與安全訓練投入而縮放。
注入攻擊面分類法
LLM 應用中所有已知注入攻擊面的完整分類法。
注入轉移性研究
研究提示詞注入技術如何在不同模型家族與規模之間轉移。
多代理注入研究
研究注入如何在多代理系統中傳播,以及哪些性質決定感染擴散速率。
新型注入類別
探討不符合傳統分類法的新興注入類別,包括結構性、時序性與跨系統注入向量。
語意空間注入研究
研究在語意嵌入空間而非符元空間中運作的注入 — 直接利用已學到的表徵。
注入成功率的時序動態
研究注入成功率如何隨模型更新與防禦演進而變化。
實作:新型越獄研究
Systematic methodology for discovering new 越獄 技術 against large 語言模型. 學習 to identify unexplored 攻擊面s, develop novel attack vectors, and validate findings with scientific rigor.
Lab: Vulnerability Research Methodology
Systematic methodology lab for discovering novel AI vulnerabilities including hypothesis generation, 攻擊面 mapping, experimental design, validation protocols, and responsible disclosure.
Audio Modality 攻擊s
Comprehensive attack taxonomy for audio-enabled LLMs: adversarial audio generation, voice-based prompt injection, cross-modal split attacks, and ultrasonic perturbations.
AI 紅隊的 OSINT
自公開來源蒐集關於 AI 部署的情資:文件、徵才啟事、研究論文、社群媒體與技術產物。
Full 演練: Legal Research AI System
Full red team engagement of a legal research AI with case law access, privilege management, and citation generation.