2026 秋季 CTF:進階攻擊研究
需新穎技術發展、研究級問題解決與 AI 系統中原創漏洞發現之專家級 CTF。
2026 秋季 CTF:進階攻擊研究
2026 秋季 CTF 為經驗豐富之 AI 安全從業者設計。不同於先前 CTF(已知技術可解多數挑戰),本 CTF 需發展新穎途徑。挑戰蓄意抵抗已發表技術,迫使參與者於時間壓力下創新。
主題:尖端
本 CTF 中之每個挑戰設計為抵抗已知、已發表之技術。僅依賴其現有劇本之參與者將撞牆。成功需創意思考、第一原則推理,與即時發展新技術之能力。
類別
類別 1:新穎注入研究(4 個挑戰)
所有已知提示注入技術已被特別防禦之挑戰。你必須發展新途徑。
| 挑戰 | 難度 | 起始分數 | 描述 |
|---|---|---|---|
| NI-1:字典 | 困難 | 400 | 於處理前使用自訂編碼分詞並重建你輸入之聊天機器人。已知注入模式被編碼中和。找出倖存變換之注入。 |
| NI-2:語意防火牆 | 困難 | 450 | 具偵測注入意圖(無論表面形式)之以 embedding 為本之語意分類器之系統。繞過理解你嘗試做什麼(非僅你在說什麼)之分類器。 |
| NI-3:形式驗證 | 專家 | 500 | 使用形式方法於釋出前驗證模型輸出滿足安全屬性之系統。驗證器檢查回應之結構屬性。找出滿足形式屬性同時仍含旗幟之輸出。 |
| NI-4:悖論 | 專家 | 500 | 具看似理論上完整防禦之系統:每個可能之注入向量具對應防禦。但防禦於其組合中具缺陷。找出個別防禦間之缺口。 |
類別哲學: 這些挑戰測試你是否能自第一原則推理注入,而非對已知技術模式匹配。
類別 2:模型內部利用(4 個挑戰)
需理解並利用語言模型如何於內部處理資訊之挑戰。
| 挑戰 | 難度 | 起始分數 | 描述 |
|---|---|---|---|
| MI-1:注意力操弄 | 困難 | 400 | 旗幟存在於脈絡中但注意力層級介入防止模型於生成期間關注之模型。打造儘管介入仍重導注意力至旗幟之輸入。 |
| MI-2:Logit Lens | 困難 | 450 | 旗幟編碼於模型對特定提示之 logit 分布中,非於生成文字中。你具每 token 前 10 個 logit 之存取。自機率分布解碼旗幟。 |
| MI-3:隱寫提取 | 專家 | 500 | 旗幟於微調期間使用隱寫技術嵌入模型。其不出現於正常輸出。找出造成模型輸出隱藏資訊之觸發序列。 |
| MI-4:表徵工程 | 專家 | 500 | 模型已使用表徵工程修改以壓制特定概念。旗幟與該被壓制之概念相關。找出儘管有表徵層級介入仍引出被壓制資訊之方式。 |
類別哲學: 這些挑戰需超越提示介面之理解。你需 transformer 如何處理、儲存並生成資訊之心智模型。
類別 3:跨系統攻擊(4 個挑戰)
涉及跨多個系統、協定或模態之攻擊之挑戰。
| 挑戰 | 難度 | 起始分數 | 描述 |
|---|---|---|---|
| CS-1:協定混淆 | 困難 | 400 | 處理自然語言與結構化資料(JSON/XML)之 AI 系統。旗幟經混淆攻擊可存取,其中模型誤解自然語言與結構化資料間之邊界。 |
| CS-2:模態跳躍 | 困難 | 450 | 處理文字與圖像之多模態系統。旗幟受以文字為本之提取保護。找出經圖像處理路徑或利用跨模態互動提取之方式。 |
| CS-3:時間扭曲 | 專家 | 500 | 具時序防禦之系統:其於時間監控對話模式並阻擋於多輪次發展之攻擊。執行逃避時序模式偵測之多輪攻擊。 |
| CS-4:生態系 | 專家 | 500 | 具 5 個互動元件(模型、資料庫、快取、佇列、外部 API)之複雜系統。旗幟僅經跨 3+ 元件之利用鏈可存取。無單一漏洞充足。 |
類別哲學: 現實世界 AI 系統從未隔離。這些挑戰測試你尋找並利用元件間接縫之能力。
類別 4:防禦破壞(4 個挑戰)
予你完整防禦規格並必須找出缺陷之挑戰。
| 挑戰 | 難度 | 起始分數 | 描述 |
|---|---|---|---|
| DF-1:開源防禦 | 困難 | 400 | 提供完整原始碼之防禦系統。找出實作中允許繞過之漏洞。此為程式碼審查遇上提示注入。 |
| DF-2:機率性防禦 | 困難 | 450 | 使用隨機化之防禦:其隨機重排 token、加入誘餌指令,並跨請求變化系統提示措辭。找出儘管隨機化仍運作之技術。 |
| DF-3:適配防禦 | 專家 | 500 | 自攻擊嘗試學習之防禦。每次失敗攻擊強化對相似未來嘗試之防禦。找出於首次嘗試成功之攻擊,或找出操弄學習過程之方式。 |
| DF-4:加密防禦 | 專家 | 500 | 使用加密技術(訊息認證碼、加密指令)以確保模型僅遵循已驗證指令之防禦。於套用至 LLM 脈絡之加密協定中找出缺陷。 |
類別哲學: 深入理解防禦以至破壞之為專家之標誌。這些挑戰需讀取並分析防禦實作,非僅對黑箱拋擲攻擊。
類別 5:原創研究(2 個挑戰)
獎勵原創發現之開放式挑戰。
| 挑戰 | 難度 | 起始分數 | 描述 |
|---|---|---|---|
| OR-1:漏洞賞金 | 變化 | 100-500 | 挑戰平台本身為目標。於 CTF 基礎設施中找出真實安全漏洞。分數值取決於嚴重性。此非模擬挑戰——你找出之任何真實漏洞賺取分數。 |
| OR-2:讓我們驚訝 | 變化 | 100-500 | 提交任何其他挑戰未涵蓋之原創 AI 安全技術或發現。分數值由評審小組基於新穎性、重要性與文件品質決定。 |
類別哲學: 最佳安全研究者不等待他人定義挑戰——他們自己找出有趣之問題。這些開放式挑戰獎勵該心態。
計分
動態計分
與 競賽概觀 中描述之同一動態計分,配一個修改:於 24 小時後仍未解之專家挑戰於分數值增加 10%(至 550 最大)。
研究品質獎勵
為原創研究挑戰(OR-1 與 OR-2),計分含品質乘數:
| 品質因素 | 乘數 |
|---|---|
| 具概念證明之新穎技術 | 1.0x |
| 具嚴謹評估之新穎技術 | 1.3x |
| 具提議防禦之新穎技術 | 1.5x |
隊伍組成獎勵
個人參與者於其總分獲 1.2x 乘數,認可跨所有類別獨自競爭之額外難度。
準備
最低先備條件
- 完成至少 2 次先前季度 CTF 或同等競賽經驗
- 於時間壓力下舒適地發展工具與腳本
- 熟悉至少一個 ML 框架(PyTorch、TensorFlow、JAX)
- 自研究論文讀取並實作技術之經驗
推薦準備
- 讀取近期 AI 安全論文。 挑戰設計者自最新研究擷取靈感。對地景之熟悉助你辨認挑戰何時戲仿已知概念。
- 練習工具發展。 數個挑戰受益於快速打造自訂工具(抓取器、fuzzer、分析器)。練習快速打造小工具。
- 研究防禦機制。 防禦破壞類別需於程式碼層級理解防禦。審查開源 AI 防禦實作。
- 發展你之研究方法論。 原創研究挑戰獎勵系統化途徑。練習形成假設、設計實驗並記錄結果。
工具包推薦
| 工具 | 目的 |
|---|---|
| Python + requests/httpx | API 互動與自動化 |
| Jupyter notebooks | 探索分析與文件 |
| PyTorch/transformers | 模型分析與探測 |
| Burp Suite | 為跨系統挑戰之 HTTP 流量分析 |
| 自訂腳本 | 你於 CTF 期間打造之挑戰特定工具 |
獎項
| 名次 | 獎項 |
|---|---|
| 第 1 名 | 自訂獎盃 + 會議演講邀請 + 2,000 排行榜分數 |
| 第 2 名 | 會議演講邀請 + 1,000 排行榜分數 |
| 第 3 名 | 精選寫手 + 500 排行榜分數 |
| 最佳原創研究 | wiki 上之專用發表位 + 1,000 排行榜分數 |
| 最佳個人表現者 | 認可徽章 + 500 排行榜分數 |
CTF 後
鑑於本 CTF 之研究本質,活動後活動含:
- 研究簡報。 頂尖表現者受邀於社群網路研討會呈現其技術(CTF 後 2 週)。
- 發表支援。 於 CTF 期間發現之新穎技術可於社群團隊之編輯支援下發展為完整寫手。
- 防禦協作。 來自本 CTF 之發現(配參與者同意)分享予模型提供者與防禦研究者以改善 AI 安全。
為新穎挑戰之心智模型
當已知技術失敗時,你需自第一原則推理。以下心智模型有助:
約束模型
每個防禦於模型行為加諸約束。約束或:
- 硬約束於架構上執行(模型字面上無法存取某些資料)
- 軟約束經訓練或提示執行(模型被指示勿做某事)
硬約束需架構利用。軟約束需提示層級利用。於選擇你之途徑前確定你面對哪類型。
資訊流模型
追蹤資訊如何流經系統。於資訊跨邊界(使用者至模型、模型至過濾器、過濾器至輸出)之每個點,有資訊被變換、阻擋或洩漏之機會。明確繪製流:
- 我之輸入於何處進入系統?
- 其經歷何變換?
- 我於何處可觀察系統之狀態?
- 於每個邊界存在何側通道?
組合模型
個別元件可能安全,但其組合可能不。尋找:
- 對個別元件保持但對組合系統不保持之屬性
- 一元件對另一作之未被執行之假設
- 可被操弄之元件間共享狀態
複雜系統中最有趣之漏洞存在於元件間接縫,非於個別元件內。
延伸閱讀
- 前沿與新興攻擊 —— 尖端研究脈絡
- 進階 LLM 內部 —— 模型內部知識
- 注入研究與自動化 —— 自動化攻擊研究
- Exploit 開發與工具 —— 打造進攻工具