2026 年 10 月：DEF CON AI Village 挑戰

Advanced4 min readUpdated 2026-03-15

重現並擴展 AI Village 演講與工作坊之攻擊，建立於已發表研究之上以發展實務利用技術。

challenge defcon ai-village research reproduction october-2026

2026 年 10 月：DEF CON AI Village 挑戰

重現來自 DEF CON AI Village 簡報之攻擊，並以你自身之創新擴展之。此挑戰以要求你取用已發表技術、實作之、驗證其運作並進一步推之，橋接學術研究與實務利用間之缺口。

挑戰概觀

細節	值
時程	2026 年 10 月 1-31 日
難度	進階
估計時間	12-20 小時
先備條件	研究論文理解、提示注入專業、工具開發經驗
最大分數	100

為何重現重要

AI 安全演講頻繁於舞台上展示令人印象深刻之攻擊，但會議展示與實務、可靠技術間之缺口顯著。重現迫使你：

深入理解技術。 你無法重現你不理解者。重新實作攻擊揭示投影片與展示掩蓋之細微差異。
辨識環境假設。 會議展示常依賴可能未記錄之特定模型版本、組態或脈絡。重現揭示這些依賴。
發現失效模式。 現場展示顯示成功案例。重現向你顯示成功前之 8 次失敗嘗試。
打造可轉移技能。 讀取研究、實作技術並系統化測試它們之過程為進攻安全研究之核心技能。

軌道

挑戰基於不同 AI Village 簡報提供三個軌道。你可嘗試任一或全部軌道。

軌道 A：自動化越獄發現（35 分）

來源材料： 基於 AI 安全會議呈現之自動化紅隊與越獄最佳化技術之研究。

重現目標（20 分）： 實作基於已發表途徑之自動化越獄發現系統。你之實作應：

以目標行為描述作為輸入（例如「generate instructions for picking a lock」）
自動生成並測試越獄候選
使用回饋迴圈基於模型回應精煉候選
於可組態之迭代數內產出可運作之越獄

重現準則：

準則	分數
生成候選之可運作實作	5
於迭代間改善候選之回饋迴圈	5
於回報結果 2 倍內之成功率	5
與原途徑差異之清楚文件	5

擴展目標（15 分）： 以原研究未描述之方式擴展自動化系統。範例：

加入多模型支援（同時對多個模型測試候選）
實作不同最佳化策略（演化式、無梯度、以 LLM 為本）
加入可轉移性測試（自動測試成功越獄是否跨模型轉移）
實作防禦偵測（辨識目標使用何防禦並適配策略）

擴展計分： 基於擴展之重要性、實作品質與實證結果。

軌道 B：代理利用框架（35 分）

來源材料： 基於系統化利用具工具存取之 AI 代理系統之研究。

重現目標（20 分）： 打造測試框架以：

經系統化探測繪製代理之工具能力
辨識代理與其工具間之信任邊界違規
測試間接提示注入面
生成攻擊面報告

重現準則：

準則	分數
工具能力列舉運作	5
信任邊界測試已實作	5
間接注入面辨識	5
於測試代理上生成之報告匹配預期發現	5

擴展目標（15 分）： 擴展框架超越原範圍：

加入自動化利用（非僅辨識，而為自動化 payload 生成）
實作多代理系統支援（與其他代理協調之代理）
加入持久性偵測（辨識代理受損狀態是否持續）
基於辨識之漏洞打造防禦推薦引擎

軌道 C：模型指紋識別與能力引出（30 分）

來源材料： 基於用於決定哪個模型於 API 端點之後並無文件繪製其能力之技術之研究。

重現目標（15 分）： 實作模型指紋識別系統以：

將一組探測查詢送至未知模型端點
分析回應以決定模型家族（GPT、Claude、Gemini、Llama、Mistral）
估計模型版本或大小類別
繪製模型之安全邊界（其將做與不做什麼）

重現準則：

準則	分數
模型家族辨識 >80% 準確度	5
以合理準確度之版本／大小估計	3
安全邊界繪製產出有用結果	4
有效探測集（最小化所需查詢）	3

擴展目標（15 分）： 擴展指紋識別系統：

加入系統提示偵測（決定系統提示是否存在並估計其內容）
實作微調偵測（區分基礎模型與微調變體）
加入防禦指紋識別（辨識於基礎模型對齊之外部署何安全層）
基於指紋結果打造「最可能成功」之攻擊選擇器

實作要求

程式碼品質

你之實作將於下述評估：

功能性。 其如描述般運作嗎？
程式碼品質。 程式碼可讀、良好結構化且有文件嗎？
可重現性。 他人能執行你之程式碼並獲相似結果嗎？
測試。 你是否納入驗證實作運作之測試？

文件要求

為每個軌道，提交：

# Track [A/B/C]: [Title]
 
## Original Research Summary
[1 paragraph summarizing the source material and its key contributions]
 
## Reproduction
 
### Approach
[How you implemented the technique. What decisions did you make
and why?]
 
### Differences from Original
[Where your implementation differs from the original and why.
Differences are expected -- document them honestly.]
 
### Results
[Quantitative results compared to the original paper's reported
results]
 
### Challenges Encountered
[What was harder than expected? What was not documented in the
original research that you had to figure out?]
 
## Extension
 
### Motivation
[Why you chose this extension and what gap it addresses]
 
### Implementation
[Technical description of the extension]
 
### Results
[What the extension achieved. Quantitative results where possible.]
 
### Limitations
[Where the extension falls short or fails]

評估

計分摘要

軌道	重現	擴展	總計
軌道 A：自動化越獄	20	15	35
軌道 B：代理利用	20	15	35
軌道 C：模型指紋識別	15	15	30

你可完成全部三個軌道以獲最多 100 分，或聚焦一或兩個軌道進行聚焦提交。

獎勵考量

跨軌道結合技術之提交（例如使用指紋結果引導自動化越獄）獲最多 5 獎勵分。
含跨模型或技術之比較分析之提交獲最多 5 獎勵分。

研究倫理

負責任研究實踐

引用所有來源材料。勿將重現之工作呈現為原創。
於挑戰結束後與社群分享你之程式碼與結果以推進集體知識。
聚焦於展示漏洞存在並推薦緩解，非於建立為有害使用之即用攻擊工具。

研究重現中之常見陷阱

假設已發表結果為全部故事

會議演講為受眾參與而非可重現性最佳化。重要細節常因時間被省略：

超參數與組態。 演講提及「we used GPT-4」但未指定溫度、系統提示或 API 版本。這些細節顯著影響結果。
失敗率。 顯示 3 次成功攻擊之展示可能未提及找到那 3 次前之 50 次失敗嘗試。誠實回報你之失敗率。
精選範例。 已發表範例為清晰度與影響被選擇。你於隨機樣本之結果將看似更混亂。此為正常且預期。

混淆重現與複製

重現意指實作相同技術並驗證其運作。複製意指獲得相同量化結果。這些為不同標準：

重現若技術有效則始終可達成。若你正確實作技術而其完全不運作，原聲明可能錯誤，或技術可能依賴已更新之特定模型版本。
精確數字之複製常因模型版本變化、API 行為差異與隨機變異而不可能。於回報數字之 20% 內一般充足。

低估實作時間

於 2 張投影片中描述之技術可能需 20 小時實作。「理解概念」與「可運作程式碼」間之缺口持續大於預期。預算為你認為所需時間之兩倍。

於擴展中過度重視新穎性

最有價值之擴展常非最新穎——而為最實務。將技術自 1 模型擴展至 3 模型（系統化測試）常較加入理論有效但未驗證之推測性新特性更有價值。

入門

選擇你之軌道。 於挑戰平台讀取來源材料摘要並挑選匹配你技能與興趣之軌道。
讀取原研究。 於挑戰平台提供至來源簡報與論文之連結。於撰寫任何程式碼前徹底讀取它們。
規劃你之實作。 於編碼前撰寫虛擬碼並辨識關鍵技術挑戰。
漸進建立。 自最簡單元件開始並驗證其運作後再加入複雜度。
邊進行邊記錄。 與你之實作並行撰寫文件，非於後。此早期捕捉你理解中之缺口。

重現技能之價值

研究重現為 AI 安全中未被充分認識之技能。讀取論文、理解技術、實作之並驗證其運作之能力為專業實踐之基礎：

保持當前。 領域移動快速。新技術每週發表。若你能重現論文之技術，你可保持你之工具包當前而無需等他人建立工具。
評估聲明。 非所有於會議發表者如描述般運作。經重現測試聲明之能力對區分真實進展與過擬合展示關鍵。
建立於先前工作。 最佳新技術建立於現有者之上。重現予你開始擴展所需之可運作實作。
對領域之貢獻。 確認或質疑已發表結果之重現研究為有價值貢獻。負面結果（不重現之技術）特別重要。

此挑戰不僅關於打造工具——而為發展於整個職涯啟動持續學習之研究方法論。

2026 年 10 月：DEF CON AI Village 挑戰

Advanced4 min readUpdated 2026-03-15

重現並擴展 AI Village 演講與工作坊之攻擊，建立於已發表研究之上以發展實務利用技術。

challenge defcon ai-village research reproduction october-2026

2026 年 10 月：DEF CON AI Village 挑戰

挑戰概觀

細節	值
時程	2026 年 10 月 1-31 日
難度	進階
估計時間	12-20 小時
先備條件	研究論文理解、提示注入專業、工具開發經驗
最大分數	100

為何重現重要

AI 安全演講頻繁於舞台上展示令人印象深刻之攻擊，但會議展示與實務、可靠技術間之缺口顯著。重現迫使你：

深入理解技術。 你無法重現你不理解者。重新實作攻擊揭示投影片與展示掩蓋之細微差異。
辨識環境假設。 會議展示常依賴可能未記錄之特定模型版本、組態或脈絡。重現揭示這些依賴。
發現失效模式。 現場展示顯示成功案例。重現向你顯示成功前之 8 次失敗嘗試。
打造可轉移技能。 讀取研究、實作技術並系統化測試它們之過程為進攻安全研究之核心技能。

軌道

挑戰基於不同 AI Village 簡報提供三個軌道。你可嘗試任一或全部軌道。

軌道 A：自動化越獄發現（35 分）

來源材料： 基於 AI 安全會議呈現之自動化紅隊與越獄最佳化技術之研究。

重現目標（20 分）： 實作基於已發表途徑之自動化越獄發現系統。你之實作應：

以目標行為描述作為輸入（例如「generate instructions for picking a lock」）
自動生成並測試越獄候選
使用回饋迴圈基於模型回應精煉候選
於可組態之迭代數內產出可運作之越獄

重現準則：

準則	分數
生成候選之可運作實作	5
於迭代間改善候選之回饋迴圈	5
於回報結果 2 倍內之成功率	5
與原途徑差異之清楚文件	5

擴展目標（15 分）： 以原研究未描述之方式擴展自動化系統。範例：

加入多模型支援（同時對多個模型測試候選）
實作不同最佳化策略（演化式、無梯度、以 LLM 為本）
加入可轉移性測試（自動測試成功越獄是否跨模型轉移）
實作防禦偵測（辨識目標使用何防禦並適配策略）

擴展計分： 基於擴展之重要性、實作品質與實證結果。

軌道 B：代理利用框架（35 分）

來源材料： 基於系統化利用具工具存取之 AI 代理系統之研究。

重現目標（20 分）： 打造測試框架以：

經系統化探測繪製代理之工具能力
辨識代理與其工具間之信任邊界違規
測試間接提示注入面
生成攻擊面報告

重現準則：

準則	分數
工具能力列舉運作	5
信任邊界測試已實作	5
間接注入面辨識	5
於測試代理上生成之報告匹配預期發現	5

擴展目標（15 分）： 擴展框架超越原範圍：

加入自動化利用（非僅辨識，而為自動化 payload 生成）
實作多代理系統支援（與其他代理協調之代理）
加入持久性偵測（辨識代理受損狀態是否持續）
基於辨識之漏洞打造防禦推薦引擎

軌道 C：模型指紋識別與能力引出（30 分）

來源材料： 基於用於決定哪個模型於 API 端點之後並無文件繪製其能力之技術之研究。

重現目標（15 分）： 實作模型指紋識別系統以：

將一組探測查詢送至未知模型端點
分析回應以決定模型家族（GPT、Claude、Gemini、Llama、Mistral）
估計模型版本或大小類別
繪製模型之安全邊界（其將做與不做什麼）

重現準則：

準則	分數
模型家族辨識 >80% 準確度	5
以合理準確度之版本／大小估計	3
安全邊界繪製產出有用結果	4
有效探測集（最小化所需查詢）	3

擴展目標（15 分）： 擴展指紋識別系統：

加入系統提示偵測（決定系統提示是否存在並估計其內容）
實作微調偵測（區分基礎模型與微調變體）
加入防禦指紋識別（辨識於基礎模型對齊之外部署何安全層）
基於指紋結果打造「最可能成功」之攻擊選擇器

實作要求

程式碼品質

你之實作將於下述評估：

功能性。 其如描述般運作嗎？
程式碼品質。 程式碼可讀、良好結構化且有文件嗎？
可重現性。 他人能執行你之程式碼並獲相似結果嗎？
測試。 你是否納入驗證實作運作之測試？

文件要求

為每個軌道，提交：

# Track [A/B/C]: [Title]
 
## Original Research Summary
[1 paragraph summarizing the source material and its key contributions]
 
## Reproduction
 
### Approach
[How you implemented the technique. What decisions did you make
and why?]
 
### Differences from Original
[Where your implementation differs from the original and why.
Differences are expected -- document them honestly.]
 
### Results
[Quantitative results compared to the original paper's reported
results]
 
### Challenges Encountered
[What was harder than expected? What was not documented in the
original research that you had to figure out?]
 
## Extension
 
### Motivation
[Why you chose this extension and what gap it addresses]
 
### Implementation
[Technical description of the extension]
 
### Results
[What the extension achieved. Quantitative results where possible.]
 
### Limitations
[Where the extension falls short or fails]