# training-data
標記為「training-data」的 15 篇文章
訓練資料外洩鑑識
調查訓練資料外洩,包括資料萃取證據與成員推論指標。
訓練資料來源鑑識
追蹤用於機器學習模型之訓練資料的來源、族譜與完整性的鑑識技術。
案例研究:從 GPT 萃取訓練資料
分析 Carlini 等人從生產環境 ChatGPT 萃取訓練資料的研究。
程式碼建議投毒
透過訓練資料投毒與推論期上下文操控來操控 AI 程式設計助理建議的攻擊概覽。
從程式碼模型萃取訓練資料
從程式碼生成模型權重復原專有程式碼的技術——涵蓋記憶偵測、針對性萃取、成員推論與防禦對策。
進階模型反演攻擊
使用基於梯度的反演、生成式模型輔助重建,以及成員推論精煉,從模型權重與 API 存取重建訓練資料。
訓練資料擷取(進階)
從已部署的語言模型中逐字擷取訓練資料的進階技術。
透過嵌入進行成員推論
透過距離式推論、統計檢定與嵌入行為分析,判定特定資料是否存在於嵌入模型的訓練集之中。
Repository 投毒 for Code 模型s
Techniques for poisoning code repositories to influence code generation models, including training data poisoning through popular repositories, backdoor injection in open-source dependencies, and supply chain attacks targeting code model training pipelines.
訓練資料的儲存安全
訓練資料的儲存安全,包含存取控制、加密、血緣與隱私。
Lab: Training Data Extraction at Scale
Extract memorized training data from 語言模型 using prefix-based extraction, divergence testing, and membership inference. Measure extraction rates and assess privacy risks.
訓練 Data 萃取 from Production LLMs
實作Carlini et al.'s techniques to extract memorized training data from production language model APIs.
擷取訓練資料
透過針對性查詢與成員推論攻擊,從 LLM 中擷取已記憶之訓練資料、系統提示與私密資訊的技術。
RAG、資料與訓練攻擊
針對 AI 系統資料層攻擊的概覽,包含 RAG 投毒、訓練資料操控與資料萃取技術。
訓練資料操縱
透過投毒訓練資料、微調資料集或 RLHF 偏好資料來腐蝕模型行為的攻擊,包括後門安裝與安全對齊移除。