2026 年 10 月:DEF CON AI Village 挑戰
重現並擴展 AI Village 演講與工作坊之攻擊,建立於已發表研究之上以發展實務利用技術。
2026 年 10 月:DEF CON AI Village 挑戰
重現來自 DEF CON AI Village 簡報之攻擊,並以你自身之創新擴展之。此挑戰以要求你取用已發表技術、實作之、驗證其運作並進一步推之,橋接學術研究與實務利用間之缺口。
挑戰概觀
| 細節 | 值 |
|---|---|
| 時程 | 2026 年 10 月 1-31 日 |
| 難度 | 進階 |
| 估計時間 | 12-20 小時 |
| 先備條件 | 研究論文理解、提示注入專業、工具開發經驗 |
| 最大分數 | 100 |
為何重現重要
AI 安全演講頻繁於舞台上展示令人印象深刻之攻擊,但會議展示與實務、可靠技術間之缺口顯著。重現迫使你:
- 深入理解技術。 你無法重現你不理解者。重新實作攻擊揭示投影片與展示掩蓋之細微差異。
- 辨識環境假設。 會議展示常依賴可能未記錄之特定模型版本、組態或脈絡。重現揭示這些依賴。
- 發現失效模式。 現場展示顯示成功案例。重現向你顯示成功前之 8 次失敗嘗試。
- 打造可轉移技能。 讀取研究、實作技術並系統化測試它們之過程為進攻安全研究之核心技能。
軌道
挑戰基於不同 AI Village 簡報提供三個軌道。你可嘗試任一或全部軌道。
軌道 A:自動化越獄發現(35 分)
來源材料: 基於 AI 安全會議呈現之自動化紅隊與越獄最佳化技術之研究。
重現目標(20 分): 實作基於已發表途徑之自動化越獄發現系統。你之實作應:
- 以目標行為描述作為輸入(例如「generate instructions for picking a lock」)
- 自動生成並測試越獄候選
- 使用回饋迴圈基於模型回應精煉候選
- 於可組態之迭代數內產出可運作之越獄
重現準則:
| 準則 | 分數 |
|---|---|
| 生成候選之可運作實作 | 5 |
| 於迭代間改善候選之回饋迴圈 | 5 |
| 於回報結果 2 倍內之成功率 | 5 |
| 與原途徑差異之清楚文件 | 5 |
擴展目標(15 分): 以原研究未描述之方式擴展自動化系統。範例:
- 加入多模型支援(同時對多個模型測試候選)
- 實作不同最佳化策略(演化式、無梯度、以 LLM 為本)
- 加入可轉移性測試(自動測試成功越獄是否跨模型轉移)
- 實作防禦偵測(辨識目標使用何防禦並適配策略)
擴展計分: 基於擴展之重要性、實作品質與實證結果。
軌道 B:代理利用框架(35 分)
來源材料: 基於系統化利用具工具存取之 AI 代理系統之研究。
重現目標(20 分): 打造測試框架以:
- 經系統化探測繪製代理之工具能力
- 辨識代理與其工具間之信任邊界違規
- 測試間接提示注入面
- 生成攻擊面報告
重現準則:
| 準則 | 分數 |
|---|---|
| 工具能力列舉運作 | 5 |
| 信任邊界測試已實作 | 5 |
| 間接注入面辨識 | 5 |
| 於測試代理上生成之報告匹配預期發現 | 5 |
擴展目標(15 分): 擴展框架超越原範圍:
- 加入自動化利用(非僅辨識,而為自動化 payload 生成)
- 實作多代理系統支援(與其他代理協調之代理)
- 加入持久性偵測(辨識代理受損狀態是否持續)
- 基於辨識之漏洞打造防禦推薦引擎
軌道 C:模型指紋識別與能力引出(30 分)
來源材料: 基於用於決定哪個模型於 API 端點之後並無文件繪製其能力之技術之研究。
重現目標(15 分): 實作模型指紋識別系統以:
- 將一組探測查詢送至未知模型端點
- 分析回應以決定模型家族(GPT、Claude、Gemini、Llama、Mistral)
- 估計模型版本或大小類別
- 繪製模型之安全邊界(其將做與不做什麼)
重現準則:
| 準則 | 分數 |
|---|---|
| 模型家族辨識 >80% 準確度 | 5 |
| 以合理準確度之版本/大小估計 | 3 |
| 安全邊界繪製產出有用結果 | 4 |
| 有效探測集(最小化所需查詢) | 3 |
擴展目標(15 分): 擴展指紋識別系統:
- 加入系統提示偵測(決定系統提示是否存在並估計其內容)
- 實作微調偵測(區分基礎模型與微調變體)
- 加入防禦指紋識別(辨識於基礎模型對齊之外部署何安全層)
- 基於指紋結果打造「最可能成功」之攻擊選擇器
實作要求
程式碼品質
你之實作將於下述評估:
- 功能性。 其如描述般運作嗎?
- 程式碼品質。 程式碼可讀、良好結構化且有文件嗎?
- 可重現性。 他人能執行你之程式碼並獲相似結果嗎?
- 測試。 你是否納入驗證實作運作之測試?
文件要求
為每個軌道,提交:
# Track [A/B/C]: [Title]
## Original Research Summary
[1 paragraph summarizing the source material and its key contributions]
## Reproduction
### Approach
[How you implemented the technique. What decisions did you make
and why?]
### Differences from Original
[Where your implementation differs from the original and why.
Differences are expected -- document them honestly.]
### Results
[Quantitative results compared to the original paper's reported
results]
### Challenges Encountered
[What was harder than expected? What was not documented in the
original research that you had to figure out?]
## Extension
### Motivation
[Why you chose this extension and what gap it addresses]
### Implementation
[Technical description of the extension]
### Results
[What the extension achieved. Quantitative results where possible.]
### Limitations
[Where the extension falls short or fails]評估
計分摘要
| 軌道 | 重現 | 擴展 | 總計 |
|---|---|---|---|
| 軌道 A:自動化越獄 | 20 | 15 | 35 |
| 軌道 B:代理利用 | 20 | 15 | 35 |
| 軌道 C:模型指紋識別 | 15 | 15 | 30 |
你可完成全部三個軌道以獲最多 100 分,或聚焦一或兩個軌道進行聚焦提交。
獎勵考量
- 跨軌道結合技術之提交(例如使用指紋結果引導自動化越獄)獲最多 5 獎勵分。
- 含跨模型或技術之比較分析之提交獲最多 5 獎勵分。
研究倫理
負責任研究實踐
- 引用所有來源材料。勿將重現之工作呈現為原創。
- 於挑戰結束後與社群分享你之程式碼與結果以推進集體知識。
- 聚焦於展示漏洞存在並推薦緩解,非於建立為有害使用之即用攻擊工具。
研究重現中之常見陷阱
假設已發表結果為全部故事
會議演講為受眾參與而非可重現性最佳化。重要細節常因時間被省略:
- 超參數與組態。 演講提及「we used GPT-4」但未指定溫度、系統提示或 API 版本。這些細節顯著影響結果。
- 失敗率。 顯示 3 次成功攻擊之展示可能未提及找到那 3 次前之 50 次失敗嘗試。誠實回報你之失敗率。
- 精選範例。 已發表範例為清晰度與影響被選擇。你於隨機樣本之結果將看似更混亂。此為正常且預期。
混淆重現與複製
重現意指實作相同技術並驗證其運作。複製意指獲得相同量化結果。這些為不同標準:
- 重現若技術有效則始終可達成。若你正確實作技術而其完全不運作,原聲明可能錯誤,或技術可能依賴已更新之特定模型版本。
- 精確數字之複製常因模型版本變化、API 行為差異與隨機變異而不可能。於回報數字之 20% 內一般充足。
低估實作時間
於 2 張投影片中描述之技術可能需 20 小時實作。「理解概念」與「可運作程式碼」間之缺口持續大於預期。預算為你認為所需時間之兩倍。
於擴展中過度重視新穎性
最有價值之擴展常非最新穎——而為最實務。將技術自 1 模型擴展至 3 模型(系統化測試)常較加入理論有效但未驗證之推測性新特性更有價值。
入門
- 選擇你之軌道。 於挑戰平台讀取來源材料摘要並挑選匹配你技能與興趣之軌道。
- 讀取原研究。 於挑戰平台提供至來源簡報與論文之連結。於撰寫任何程式碼前徹底讀取它們。
- 規劃你之實作。 於編碼前撰寫虛擬碼並辨識關鍵技術挑戰。
- 漸進建立。 自最簡單元件開始並驗證其運作後再加入複雜度。
- 邊進行邊記錄。 與你之實作並行撰寫文件,非於後。此早期捕捉你理解中之缺口。
重現技能之價值
研究重現為 AI 安全中未被充分認識之技能。讀取論文、理解技術、實作之並驗證其運作之能力為專業實踐之基礎:
- 保持當前。 領域移動快速。新技術每週發表。若你能重現論文之技術,你可保持你之工具包當前而無需等他人建立工具。
- 評估聲明。 非所有於會議發表者如描述般運作。經重現測試聲明之能力對區分真實進展與過擬合展示關鍵。
- 建立於先前工作。 最佳新技術建立於現有者之上。重現予你開始擴展所需之可運作實作。
- 對領域之貢獻。 確認或質疑已發表結果之重現研究為有價值貢獻。負面結果(不重現之技術)特別重要。
此挑戰不僅關於打造工具——而為發展於整個職涯啟動持續學習之研究方法論。
延伸閱讀
- 前沿與新興攻擊 —— 尖端攻擊研究
- Exploit 開發與工具 —— 打造進攻工具
- 注入研究與自動化 —— 自動化攻擊技術
- 2026 年 11 月挑戰 —— 下一個挑戰