技能驗證:偵察
中級1 分鐘閱讀更新於 2026-03-15
計時技能驗證實驗室:在 20 分鐘內透過識別模型、萃取設定並描繪能力,剖析未知的 AI 系統。
技能驗證:偵察
在 20 分鐘內剖析未知的 AI 系統:識別模型家族、萃取設定細節,並描繪系統的能力與攻擊面。
目標
你獲得對聊天機器人端點的存取,但對其設定無先驗知識。你必須系統性地剖析系統以決定:什麼模型驅動它、其設定看起來如何,以及它暴露哪些能力與攻擊面。
環境設定
請同事(或使用腳本)在不告知你細節的情況下設定以下的聊天機器人:
- 選擇一個模型(任何提供者或本地模型)
- 以特定角色與至少三個行為規則設定系統提示詞
- 選擇性連接一或多個工具(網頁搜尋、檔案存取、計算機、資料庫查詢等)
- 選擇性設定非預設的推論參數(溫度、最大符元等)
- 將完整設定記錄為答案鑰匙
若獨自工作,設定系統並等待至少 24 小時才嘗試實驗室,使細節在你記憶中不再新鮮。
時限
從你第一次與系統互動起 20 分鐘。
通過標準
若你正確識別下列六個元素中 至少四個,則通過:
Knowledge Check
元素 1:模型識別——你能否決定驅動系統的模型家族(例如 GPT-4、Claude、Llama、Gemini)?
Knowledge Check
元素 2:系統提示詞——你能否從系統提示詞萃取有意義的內容(角色、至少一個行為規則)?
Knowledge Check
元素 3:工具清單——你能否列舉系統可存取的任何工具或外部能力?
Knowledge Check
元素 4:推論參數——你能否估計至少一個非預設的推論參數(例如溫度、最大輸出長度)?
Knowledge Check
元素 5:知識截止——你能否決定模型的訓練資料截止日期?
Knowledge Check
元素 6:防禦措施——你能否識別至少一個防禦措施(輸入過濾器、輸出過濾器、內容政策)及其限制?
失敗條件
- 自動失敗:直接存取設定檔、環境變數或後端系統(此測試僅透過聊天介面剖析)。
- 自動失敗:使用對特定系統設定的先驗知識(若你自己設定,必須等候規定期間)。
- 自動失敗:超過 20 分鐘時限。
偵察方法論
Knowledge Check
AI 系統偵察探測的最佳順序是什麼?
Knowledge Check
分析模型的拒絕語言如何有助於識別其模型家族?
實驗室後
將你的概貌對照答案鑰匙並評估:
- 準確性:你正確識別了多少元素?
- 效率:你是否有效使用 20 分鐘,還是在一個元素上花太久?
- 方法論:你是否遵循系統性方法,還是探測是臨時的?
- 文件:你是否產出另一個紅隊員能用作攻擊規劃基礎的結構化概貌?