# training-data

30 articlestagged with “training-data”

Training Data Breach Forensics

Investigating training data breaches including data extraction evidence and membership inference indicators.

ai-forensicstraining-databreachforensics

Advanced

Training Data Provenance Forensics

Forensic techniques for tracing the origins, lineage, and integrity of training data used in machine learning models.

ai-forensics-irdata-provenancetraining-datasupply-chain

Intermediate

Case Study: Training Data Extraction from GPT

Analysis of the Carlini et al. work on extracting training data from ChatGPT in production.

case-studiestraining-dataextractionprivacy

Advanced

Code Suggestion Poisoning

Overview of attacks that manipulate AI coding assistant suggestions through training data poisoning and inference-time context manipulation.

suggestion-poisoningtraining-datacontext-manipulationsupply-chaincode-generation

Intermediate

Training Data Extraction from Code Models

Techniques for recovering proprietary code from code generation model weights — covering memorization detection, targeted extraction, membership inference, and defensive countermeasures.

training-dataextractionmemorizationcode-modelsintellectual-property

Advanced

Advanced Model Inversion Attacks

Reconstructing training data from model weights and API access using gradient-based inversion, generative model-assisted reconstruction, and membership inference refinement.

model-inversiontraining-datareconstructionprivacygradient-inversion

Advanced

Advanced Training Data Extraction

Advanced techniques for extracting memorized training data from language models.

data-trainingextractiontraining-dataadvanced

Advanced

Membership Inference via Embeddings

Determining if specific data was in an embedding model's training set through distance-based inference, statistical tests, and embedding behavior analysis.

membership-inferenceprivacytraining-datastatistical-testsembedding-analysis

Advanced

Repository Poisoning for Code Models

Techniques for poisoning code repositories to influence code generation models, including training data poisoning through popular repositories, backdoor injection in open-source dependencies, and supply chain attacks targeting code model training pipelines.

repository-poisoningcode-modelssupply-chaintraining-databackdoorsopen-source

Advanced

Securing Storage Systems for Training Data

Attack and defense strategies for S3, GCS, HDFS, and object storage systems holding AI training datasets and model artifacts

infrastructurestorage-securitys3gcshdfsdata-securitytraining-data

Intermediate

Lab: Training Data Extraction at Scale

Extract memorized training data from language models using prefix-based extraction, divergence testing, and membership inference. Measure extraction rates and assess privacy risks.

labtraining-dataextractionprivacy

Advanced

Training Data Extraction from Production LLMs

Implement Carlini et al.'s techniques to extract memorized training data from production language model APIs.

labstraining-dataextractionproductionadvanced

Advanced

Extracting Training Data

Techniques for extracting memorized training data, system prompts, and private information from LLMs through targeted querying and membership inference attacks.

data-extractiontraining-dataprivacymembership-inferencemodel-extraction

Advanced

RAG, Data & Training Attacks

Overview of attacks targeting the data layer of AI systems, including RAG poisoning, training data manipulation, and data extraction techniques.

ragdata-poisoningtraining-datadata-extractionai-security

Beginner

Training Data Manipulation

Attacks that corrupt model behavior by poisoning training data, fine-tuning datasets, or RLHF preference data, including backdoor installation and safety alignment removal.

training-datadata-poisoningbackdoorsfine-tuningalignment

Advanced

訓練 Data Breach Forensics

Investigating training data breaches including data extraction evidence and membership inference indicators.

ai-forensicstraining-databreachforensics

Advanced

訓練 Data Provenance Forensics

Forensic techniques for tracing the origins, lineage, and integrity of training data used in machine learning models.

ai-forensics-irdata-provenancetraining-datasupply-chain

Intermediate

Case Study: 訓練 Data Extraction from GPT

Analysis of the Carlini et al. work on extracting training data from ChatGPT in production.

case-studiestraining-dataextractionprivacy

Advanced

程式碼建議投毒

透過訓練資料投毒與推論期上下文操控來操控 AI 程式設計助理建議的攻擊概覽。

suggestion-poisoningtraining-datacontext-manipulationsupply-chaincode-generation

Intermediate

從程式碼模型萃取訓練資料

從程式碼生成模型權重復原專有程式碼的技術——涵蓋記憶偵測、針對性萃取、成員推論與防禦對策。

training-dataextractionmemorizationcode-modelsintellectual-property

Advanced

進階模型 Inversion 攻擊s

Reconstructing training data from model weights and API access using gradient-based inversion, generative model-assisted reconstruction, and membership inference refinement.

model-inversiontraining-datareconstructionprivacygradient-inversion

Advanced

進階訓練 Data Extraction

進階 techniques for extracting memorized training data from language models.

data-trainingextractiontraining-dataadvanced

Advanced

透過嵌入進行成員推論

透過距離式推論、統計檢定與嵌入行為分析，判定特定資料是否存在於嵌入模型的訓練集之中。

membership-inferenceprivacytraining-datastatistical-testsembedding-analysis

Advanced

Repository 投毒 for Code 模型s

repository-poisoningcode-modelssupply-chaintraining-databackdoorsopen-source

Advanced

Securing Storage Systems for 訓練 Data

攻擊 and defense strategies for S3, GCS, HDFS, and object storage systems holding AI training datasets and model artifacts

infrastructurestorage-securitys3gcshdfsdata-securitytraining-data

Intermediate

實驗室: 訓練 Data Extraction at Scale

Extract memorized training data from language models using prefix-based extraction, divergence testing, and membership inference. Measure extraction rates and assess privacy risks.

labtraining-dataextractionprivacy

Advanced

訓練 Data Extraction from Production LLMs

Implement Carlini et al.'s techniques to extract memorized training data from production language model APIs.

labstraining-dataextractionproductionadvanced

Advanced

擷取訓練資料

透過針對性查詢與成員推論攻擊，從 LLM 中擷取已記憶之訓練資料、系統提示與私密資訊的技術。

data-extractiontraining-dataprivacymembership-inferencemodel-extraction

Advanced

RAG、資料與訓練攻擊

針對 AI 系統資料層攻擊的概覽，包含 RAG 投毒、訓練資料操控與資料萃取技術。

ragdata-poisoningtraining-datadata-extractionai-security

Beginner

訓練資料攻擊

操控用於訓練或微調模型之資料的攻擊——涵蓋資料投毒、後門植入、RLHF 操控與微調利用。

training-datadata-poisoningbackdoorsrlhffine-tuning

Advanced

# training-data

Training Data Breach Forensics

Training Data Provenance Forensics

Case Study: Training Data Extraction from GPT

Code Suggestion Poisoning

Training Data Extraction from Code Models

Advanced Model Inversion Attacks

Advanced Training Data Extraction

Membership Inference via Embeddings

Repository Poisoning for Code Models

Securing Storage Systems for Training Data

Lab: Training Data Extraction at Scale

Training Data Extraction from Production LLMs

Extracting Training Data

RAG, Data & Training Attacks

Training Data Manipulation

訓練 Data Breach Forensics

訓練 Data Provenance Forensics

Case Study: 訓練 Data Extraction from GPT

程式碼建議投毒

從程式碼模型萃取訓練資料

進階 模型 Inversion 攻擊s

進階 訓練 Data Extraction

透過嵌入進行成員推論

Repository 投毒 for Code 模型s

Securing Storage Systems for 訓練 Data

實驗室: 訓練 Data Extraction at Scale

訓練 Data Extraction from Production LLMs

擷取訓練資料

RAG、資料與訓練攻擊

訓練資料攻擊

# training-data

Training Data Breach Forensics

Training Data Provenance Forensics

Case Study: Training Data Extraction from GPT

Code Suggestion Poisoning

Training Data Extraction from Code Models

Advanced Model Inversion Attacks

Advanced Training Data Extraction

Membership Inference via Embeddings

Repository Poisoning for Code Models

Securing Storage Systems for Training Data

Lab: Training Data Extraction at Scale

Training Data Extraction from Production LLMs

Extracting Training Data

RAG, Data & Training Attacks

Training Data Manipulation

訓練 Data Breach Forensics

訓練 Data Provenance Forensics

Case Study: 訓練 Data Extraction from GPT

程式碼建議投毒

從程式碼模型萃取訓練資料

進階 模型 Inversion 攻擊s

進階 訓練 Data Extraction

透過嵌入進行成員推論

Repository 投毒 for Code 模型s

Securing Storage Systems for 訓練 Data

實驗室: 訓練 Data Extraction at Scale

訓練 Data Extraction from Production LLMs

擷取訓練資料

RAG、資料與訓練攻擊

訓練資料攻擊

進階模型 Inversion 攻擊s

進階訓練 Data Extraction

進階模型 Inversion 攻擊s

進階訓練 Data Extraction