# extraction
標記為「extraction」的 25 篇文章
Prompt Leakage 評估
評估 of 系統提示詞 extraction技巧包括 direct probing、logprob analysis、side-channel methods。
案例研究:從 GPT 萃取訓練資料
分析 Carlini 等人從生產環境 ChatGPT 萃取訓練資料的研究。
Prompt Extraction from Code Generation 工具s
Techniques for extracting system prompts, custom instructions, and proprietary configurations from AI code generation tools.
從程式碼模型萃取訓練資料
從程式碼生成模型權重復原專有程式碼的技術——涵蓋記憶偵測、針對性萃取、成員推論與防禦對策。
2026 年 1 月:系統提示詞萃取挑戰
從五個防禦層層升級之聊天機器人萃取系統提示詞,由無防護逐步升級至強化加固配置。
知識蒸餾攻擊
透過蒸餾攻擊與以查詢為基礎的擷取方式竊取教師模型的知識。
模型記憶化模式
理解並利用模型對特定訓練樣本的記憶化模式。
PII 萃取技術
從訓練過的語言模型中萃取個人可辨識資訊的技術,包含基於提示詞的萃取、前綴攻擊、針對性查詢與真實案例。
訓練資料擷取(進階)
從已部署的語言模型中逐字擷取訓練資料的進階技術。
嵌入萃取技術
透過查詢 API 萃取嵌入模型權重或重建其行為之技術。
Lab: Safety Classifier Model Extraction
Extract the decision boundary of safety classifiers through systematic probing to craft maximally evasive payloads.
Lab: Training Data Extraction at Scale
Extract memorized training data from 語言模型 using prefix-based extraction, divergence testing, and membership inference. Measure extraction rates and assess privacy risks.
訓練 Data 萃取 from Production LLMs
實作Carlini et al.'s techniques to extract memorized training data from production language model APIs.
Lab: Prompt Leaking Basics
學習 to extract 系統提示詞s from chatbots using common leaking 技術 including direct requests, indirect elicitation, and format manipulation.
System Prompt Extraction Fundamentals
學習 to extract hidden 系統提示詞s from LLM applications using direct and indirect 技術.
Lab: System Prompt Extraction
Hands-on 技術 for extracting hidden 系統提示詞s from LLM-powered applications using direct asking, role-play, instruction replay, and other methods.
Lab: System Prompt Reconstruction
Use various 技術 to 系統性地 extract and reconstruct the full 系統提示詞 of an LLM application, combining direct, indirect, and incremental extraction methods.
Context Heist: System Prompt Extraction Championship
Extract 系統提示詞s from 10 progressively harder LLM applications using diverse 技術.
護欄 Rule 萃取 實驗室
Systematically extract the rules與decision boundaries of guardrail systems through targeted probing.
系統提示詞竊取技術
從生產大型語言模型應用程式萃取隱藏系統提示詞的完整技術,從簡單直接請求到精密的間接方法。
系統提示擷取
從 AI 應用中擷取隱藏系統提示的技術,揭露安全規則、工具定義、行為約束與敏感組態。
系統提示擷取技術
針對 LLM 應用之系統提示擷取方法的目錄:直接攻擊、間接技術、多輪策略與規避偵測。
隱匿式資料擷取技術
在不觸發告警下從 AI 系統擷取敏感資料的隱匿技術。
Advanced Prompt Leaking 詳解
Advanced techniques for extracting system prompts including iterative reconstruction and side-channel methods.
Prompt Leaking Step by Step
Systematic approaches to extract system prompts from LLM applications, covering direct elicitation, indirect inference, differential analysis, and output-based reconstruction.