用 AI 紅隊演練找 CVE:以研究為根基的指南
AI 發現的 CVE 不再是理論。2024 年,Google 的 Big Sleep 代理在 SQLite 中找到一個先前未知的可利用記憶體安全漏洞 [1]。2025 年初,Microsoft 的 Security Copilot 在 GRUB2、U-Boot 與 Barebox 開機載入器中揭露 20 個 CVE [2]。Google OSS-Fuzz 中的 AI 引導模糊測試目標發現了 OpenSSL 中存在二十年的漏洞 [3]。
本文調查這些發現背後以研究為根基的技術,並提供將 AI 納入你自己漏洞研究工作流程的實務框架。
LLM 輔助程式碼稽核
AI 應用於 CVE 搜尋最直接的方式是使用大型語言模型審查原始碼或二進位檔案的漏洞——實質上自動化手動程式碼稽核的部分。
Google Big Sleep(Project Naptime)
Google 的 Project Zero 與 DeepMind 開發了 Big Sleep,一個模擬漏洞研究人員的 LLM 代理。該代理可存取程式碼瀏覽器、Python 腳本環境、除錯器與結構化回報工具。它迭代地閱讀程式碼、形成關於潛在漏洞的假設,並撰寫測試案例以確認它們 [1]。
Big Sleep 發現 SQLite seriesBestIndex 函式中的堆疊緩衝區下溢。漏洞在同一天被回報並修復。第二個發現被分配 CVE-2025-6965(CVSS 7.2),SQLite 3.50.2 之前版本中的記憶體損毀缺陷 [1]。
Microsoft Security Copilot 對開機載入器
Microsoft 的威脅情報團隊使用 Security Copilot 稽核開源開機載入器程式碼,發現 20 個先前未知漏洞:GRUB2 中 11 個、U-Boot 中 4 個、Barebox 中 5 個。這些影響依賴 UEFI 安全開機的所有主要作業系統。Microsoft 報告 AI 相較傳統稽核方法節省約一週手動審查時間 [2]。
使用 LATTE 的二進位層級分析
並非所有漏洞研究都有原始碼存取。LATTE(LLM 輔助二進位汙染分析)將 LLM 應用於編譯二進位檔案的自動化靜態分析。系統在 真實世界韌體中識別 37 個先前未偵測的漏洞,其中 7 個獲得 CVE 指定——證明 AI 輔助稽核延伸超越原始碼至編譯產物與嵌入式系統 [4]。
RAG 增強偵測
Vul-RAG 以不同方法透過檢索增強生成強化 LLM 漏洞偵測。它不僅依賴模型的參數化知識,而是從策劃的知識庫檢索結構化漏洞知識——根本原因、修復模式與上下文資訊。這比微調模型與普通 LLM 提示詞改進偵測準確度 [5]。
AI 引導模糊測試
模糊測試仍是找到記憶體損毀與邏輯漏洞最有生產力的技術之一。AI 以兩種方式轉變模糊測試:產生更聰明的輸入以及擴展模糊測試器可達到的攻擊面。
Google OSS-Fuzz 與 AI 產生目標
Google 將 AI 產生的模糊測試目標整合至其 OSS-Fuzz 基礎設施,使用程式碼生成模型為 272 個 C/C++ 專案 撰寫模糊測試 harness。這增加了超過 370,000 行新模糊測試程式碼並發現 26 個漏洞,包含 CVE-2024-9143 ——OpenSSL 中存在約二十年的越界記憶體寫入。人類撰寫的模糊測試目標從未達到脆弱程式碼路徑 [3]。
KernelGPT — LLM 遇上核心模糊測試
KernelGPT 使用 LLM 自動產生並迭代修復核心模糊測試器 Syzkaller 的系統呼叫規範(syzlang)。傳統上,撰寫這些規範需要深入核心專業知識且是主要瓶頸。KernelGPT 發現 24 個新的唯一漏洞,其中 11 個被分配 CVE 號碼 且 12 個漏洞在上游被修復。數個產生的規範被合併入 Syzkaller 專案 [6]。
Fuzz4All — 通用 LLM 模糊測試
Fuzz4All 是第一個使用 LLM 同時作為輸入產生與變異引擎的通用模糊測試器。使用新穎的自動提示技術,它跨 6 種語言(C、C++、Go、SMT2、Java、Python)的 9 個系統被評估。它發現 98 個漏洞,其中 64 個確認為先前未知——相較語言特定模糊測試器達到平均 36.8% 涵蓋增加 [7]。
CovRL — 強化學習遇上 LLM 模糊測試
CovRL 結合 LLM 驅動的變異與由程式碼涵蓋引導的強化學習。應用於 JavaScript 引擎,它發現 48 個真實世界安全相關漏洞,包含 39 個先前未知漏洞與 11 個 CVE [8]。
提示詞注入作為 CVE 向量
隨著 LLM 整合應用程式擴散,提示詞注入已浮現為被認可的漏洞類別——類似一個世代前的 SQL 注入。
Greshake 等人的基礎論文建立了 間接提示詞注入 的分類法,對手將惡意指令注入 LLM 整合應用程式檢索的資料來源。論文展示對 Bing 的 GPT-4 Chat 與程式碼完成工具的實務攻擊,包含資料外洩與自傳播行為 [9]。
AI 發現 CVE 摘要
| CVE ID | 軟體 | 發現方法 | 年份 |
|---|---|---|---|
| CVE-2025-6965 | SQLite | Google Big Sleep (LLM 代理) | 2025 |
| CVE-2024-9143 | OpenSSL | Google OSS-Fuzz (AI 模糊測試目標) | 2024 |
| CVE-2025-26726 | U-Boot | Microsoft Security Copilot | 2025 |
| CVE-2025-26723 | Barebox | Microsoft Security Copilot | 2025 |
| 11 CVEs | Linux 核心 | KernelGPT (LLM + Syzkaller) | 2024 |
| 7 CVEs | IoT 韌體 | LATTE (LLM 二進位汙染分析) | 2024 |
| 11 CVEs | JavaScript 引擎 | CovRL (RL + LLM 模糊測試) | 2024 |
| 20 CVEs 總計 | GRUB2 / U-Boot / Barebox | Microsoft Security Copilot | 2025 |
參考文獻
- Big Sleep Team. "From Naptime to Big Sleep: Using Large Language Models To Catch Vulnerabilities In Real-World Code." Google Project Zero Blog, October 2024.
- Microsoft Threat Intelligence. "Analyzing open-source bootloaders: Finding vulnerabilities faster with AI." Microsoft Security Blog, March 2025.
- Google Security Team. "Leveling Up Fuzzing: Finding more vulnerabilities with AI." Google Security Blog, November 2024.
- Liu, P., Sun, C., Zheng, Y. et al. "Harnessing the Power of LLM to Support Binary Taint Analysis." ACM TOSEM, 2025. arXiv:2310.08275
- Du, X., Zheng, G., Wang, K. et al. "Vul-RAG: Enhancing LLM-based Vulnerability Detection via Knowledge-level RAG." arXiv:2406.11147
- Yang, C., Zhao, Z., Zhang, L. "KernelGPT: Enhanced Kernel Fuzzing via Large Language Models." ASPLOS 2025. arXiv:2401.00563
- Xia, C.S. et al. "Fuzz4All: Universal Fuzzing with Large Language Models." ICSE 2024. arXiv:2308.04748
- Eom, J., Jeong, S., Kwon, T. "CovRL: Fuzzing JavaScript Engines with Coverage-Guided Reinforcement Learning for LLM-based Mutation." arXiv:2402.12222
- Greshake, K. et al. "Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection." AISec 2023. arXiv:2302.12173
- Zou, A. et al. "Universal and Transferable Adversarial Attacks on Aligned Language Models." arXiv:2307.15043
- Mehrotra, A. et al. "Tree of Attacks: Jailbreaking Black-Box LLMs Automatically." NeurIPS 2024. arXiv:2312.02119
- Zhang, C. et al. "SoK: DARPA's AI Cyber Challenge (AIxCC)." arXiv:2602.07666