# data-training

56 articlestagged with “data-training”

Annotation Manipulation Attacks

Compromising model training by manipulating annotations and labels during the data labeling process, including insider and crowdsourcing attacks.

data-trainingannotationlabelingmanipulation

Intermediate

Benchmark Gaming Attacks

Techniques for gaming evaluation benchmarks to make poisoned or compromised models appear safe and capable during standard safety evaluations.

data-trainingbenchmarksevaluationgaming

Intermediate

Clean-Label Poisoning Attacks

Creating poisoned training samples that maintain correct labels while still influencing model behavior through subtle feature manipulation.

data-trainingpoisoningclean-labelstealth

Advanced

Continual Learning Vulnerabilities

Exploiting continual learning update mechanisms to introduce vulnerabilities through incremental model updates without triggering safety evaluations.

data-trainingcontinual-learningcatastrophic-forgettingmanipulation

Advanced

Curriculum Learning Exploitation

Exploiting curriculum learning strategies by manipulating the order and pacing of training data presentation to amplify poisoning effectiveness.

data-trainingcurriculum-learningschedulingmanipulation

Advanced

Data Augmentation Attacks

Exploiting automated data augmentation pipelines to amplify poisoned samples or introduce adversarial patterns through augmentation transformations.

data-trainingaugmentationmanipulationtraining

Intermediate

Data Deduplication Attacks

Exploiting and evading data deduplication processes used in training pipeline data cleaning to ensure poisoned samples survive preprocessing.

data-trainingdeduplicationpoisoningevasion

Advanced

Data Poisoning Strategies

Comprehensive strategies for poisoning training data to influence model behavior at scale.

data-trainingpoisoningstrategiesattacks

Advanced

Data Provenance Attacks

Compromising training data integrity by attacking provenance tracking systems, falsifying data lineage, and manipulating data pipeline metadata.

data-trainingprovenancesupply-chainintegrity

Intermediate

Dataset Inference Attacks

Inferring properties of the training dataset through model behavior analysis.

data-trainingdataset-inferenceattacksprivacy

Advanced

Federated Learning Poisoning

Attacking federated learning systems by submitting poisoned gradient updates from compromised participants while evading Byzantine-robust aggregation.

data-trainingfederated-learningpoisoningdistributed

Advanced

Gradient-Based Data Poisoning

Using gradient information to craft maximally effective poisoned samples that achieve attacker objectives with minimal data modification.

data-trainingpoisoninggradientoptimization

Advanced

Knowledge Distillation Attacks

Attacking knowledge distillation pipelines to transfer backdoors from teacher to student models or extract proprietary capabilities.

data-trainingdistillationtransferextraction

Advanced

Label Flipping Attacks

Using label flipping to subtly alter model classification behavior during supervised fine-tuning.

data-traininglabel-flippingattacksclassification

Intermediate

Membership Inference Defenses

Evaluating and implementing defenses against membership inference attacks that determine whether specific samples were in a model's training set.

data-trainingmembership-inferencedefenseprivacy

Intermediate

Practical Membership Inference Attacks

Practical guide to conducting membership inference attacks against deployed language models.

data-trainingmembership-inferenceprivacypractical

Advanced

Model Inversion Attacks

Recovering sensitive training data features through model inversion techniques.

data-trainingmodel-inversionattacksprivacy

Advanced

Model Memorization Patterns

Understanding when and why language models memorize training data, and techniques for detecting and exploiting memorization behavior.

data-trainingmemorizationextractionprivacy

Intermediate

Preference Dataset Attacks

Attacking preference datasets used for DPO and RLHF training to shift model behavior toward attacker-desired response patterns.

data-trainingpreferenceDPORLHF

Advanced

Privacy Attacks on Embeddings

Recovering sensitive information from embedding vectors through inversion attacks, attribute inference, and reconstruction techniques.

data-trainingembeddingsprivacyinversion

Advanced

Attacks on Privacy-Preserving ML

Attacking differential privacy, federated learning, and other privacy-preserving ML mechanisms.

data-trainingprivacy-preservingattacksdifferential-privacy

Expert

Reinforcement Feedback Poisoning

Compromising reinforcement learning from human feedback by poisoning preference data, manipulating reward models, or exploiting annotator disagreement.

data-trainingRLHFfeedbackmanipulation

Advanced

Synthetic Data Security Risks

Security implications of using synthetic data for model training, including inherited biases, poisoning propagation, and privacy leakage.

data-trainingsynthetic-datasecurityprivacy

Intermediate

Advanced Training Data Extraction

Advanced techniques for extracting memorized training data from language models.

data-trainingextractiontraining-dataadvanced

Advanced

Training Data Watermark Attacks

Attacking and evading watermarking schemes designed to detect training data usage and enforce data licensing compliance.

data-trainingwatermarkdetectionevasion

Advanced

Trigger-Based Backdoor Attacks

Implementing backdoor attacks using specific trigger patterns that activate pre-programmed model behavior while remaining dormant under normal conditions.

data-trainingbackdoortriggertrojan

Advanced

Web Crawl Poisoning at Scale

Strategic placement of adversarial content on the internet to influence web-crawled training datasets used by large language models.

data-trainingweb-crawlpoisoninginternet-scale

Advanced

Web-Scale Data Poisoning

Techniques for poisoning web-scale training data through targeted content manipulation.

data-trainingweb-scalepoisoningcrawl

Advanced

Annotation Manipulation 攻擊s

Compromising model training by manipulating annotations and labels during the data labeling process, including insider and crowdsourcing attacks.

data-trainingannotationlabelingmanipulation

Intermediate

Benchmark Gaming 攻擊s

Techniques for gaming evaluation benchmarks to make poisoned or compromised models appear safe and capable during standard safety evaluations.

data-trainingbenchmarksevaluationgaming

Intermediate

Clean-實驗室el 投毒攻擊s

Creating poisoned training samples that maintain correct labels while still influencing model behavior through subtle feature manipulation.

data-trainingpoisoningclean-labelstealth

Advanced

Continual Learning Vulnerabilities

利用ing continual learning update mechanisms to introduce vulnerabilities through incremental model updates without triggering safety evaluations.

data-trainingcontinual-learningcatastrophic-forgettingmanipulation

Advanced

Curriculum Learning 利用ation

利用ing curriculum learning strategies by manipulating the order and pacing of training data presentation to amplify poisoning effectiveness.

data-trainingcurriculum-learningschedulingmanipulation

Advanced

Data Augmentation 攻擊s

利用ing automated data augmentation pipelines to amplify poisoned samples or introduce adversarial patterns through augmentation transformations.

data-trainingaugmentationmanipulationtraining

Intermediate

Data Deduplication 攻擊s

利用ing and evading data deduplication processes used in training pipeline data cleaning to ensure poisoned samples survive preprocessing.

data-trainingdeduplicationpoisoningevasion

Advanced

Data 投毒 Strategies

Comprehensive strategies for poisoning training data to influence model behavior at scale.

data-trainingpoisoningstrategiesattacks

Advanced

Data Provenance 攻擊s

Compromising training data integrity by attacking provenance tracking systems, falsifying data lineage, and manipulating data pipeline metadata.

data-trainingprovenancesupply-chainintegrity

Intermediate

Dataset Inference 攻擊s

Inferring properties of the training dataset through model behavior analysis.

data-trainingdataset-inferenceattacksprivacy

Advanced

Federated Learning 投毒

攻擊ing federated learning systems by submitting poisoned gradient updates from compromised participants while evading Byzantine-robust aggregation.

data-trainingfederated-learningpoisoningdistributed

Advanced

Gradient-Based Data 投毒

Using gradient information to craft maximally effective poisoned samples that achieve attacker objectives with minimal data modification.

data-trainingpoisoninggradientoptimization

Advanced

Knowledge Distillation 攻擊s

攻擊ing knowledge distillation pipelines to transfer backdoors from teacher to student models or extract proprietary capabilities.

data-trainingdistillationtransferextraction

Advanced

實驗室el Flipping 攻擊s

Using label flipping to subtly alter model classification behavior during supervised fine-tuning.

data-traininglabel-flippingattacksclassification

Intermediate

Membership Inference 防禦s

Evaluating and implementing defenses against membership inference attacks that determine whether specific samples were in a model's training set.

data-trainingmembership-inferencedefenseprivacy

Intermediate

Practical Membership Inference 攻擊s

Practical guide to conducting membership inference attacks against deployed language models.

data-trainingmembership-inferenceprivacypractical

Advanced

模型 Inversion 攻擊s

Recovering sensitive training data features through model inversion techniques.

data-trainingmodel-inversionattacksprivacy

Advanced

模型 Memorization Patterns

Understanding when and why language models memorize training data, and techniques for detecting and exploiting memorization behavior.

data-trainingmemorizationextractionprivacy

Intermediate

Preference Dataset 攻擊s

攻擊ing preference datasets used for DPO and RLHF training to shift model behavior toward attacker-desired response patterns.

data-trainingpreferenceDPORLHF

Advanced

Privacy 攻擊s on Embeddings

Recovering sensitive information from embedding vectors through inversion attacks, attribute inference, and reconstruction techniques.

data-trainingembeddingsprivacyinversion

Advanced

攻擊s on Privacy-Preserving ML

攻擊ing differential privacy, federated learning, and other privacy-preserving ML mechanisms.

data-trainingprivacy-preservingattacksdifferential-privacy

Expert

Reinforcement Feedback 投毒

Compromising reinforcement learning from human feedback by poisoning preference data, manipulating reward models, or exploiting annotator disagreement.

data-trainingRLHFfeedbackmanipulation

Advanced

Synthetic Data 安全 Risks

安全 implications of using synthetic data for model training, including inherited biases, poisoning propagation, and privacy leakage.

data-trainingsynthetic-datasecurityprivacy

Intermediate

進階訓練 Data Extraction

進階 techniques for extracting memorized training data from language models.

data-trainingextractiontraining-dataadvanced

Advanced

訓練 Data Watermark 攻擊s

攻擊ing and evading watermarking schemes designed to detect training data usage and enforce data licensing compliance.

data-trainingwatermarkdetectionevasion

Advanced

Trigger-Based Backdoor 攻擊s

Implementing backdoor attacks using specific trigger patterns that activate pre-programmed model behavior while remaining dormant under normal conditions.

data-trainingbackdoortriggertrojan

Advanced

Web Crawl 投毒 at Scale

Strategic placement of adversarial content on the internet to influence web-crawled training datasets used by large language models.

data-trainingweb-crawlpoisoninginternet-scale

Advanced

Web-Scale Data 投毒

Techniques for poisoning web-scale training data through targeted content manipulation.

data-trainingweb-scalepoisoningcrawl

Advanced

# data-training

Annotation Manipulation Attacks

Benchmark Gaming Attacks

Clean-Label Poisoning Attacks

Continual Learning Vulnerabilities

Curriculum Learning Exploitation

Data Augmentation Attacks

Data Deduplication Attacks

Data Poisoning Strategies

Data Provenance Attacks

Dataset Inference Attacks

Federated Learning Poisoning

Gradient-Based Data Poisoning

Knowledge Distillation Attacks

Label Flipping Attacks

Membership Inference Defenses

Practical Membership Inference Attacks

Model Inversion Attacks

Model Memorization Patterns

Preference Dataset Attacks

Privacy Attacks on Embeddings

Attacks on Privacy-Preserving ML

Reinforcement Feedback Poisoning

Synthetic Data Security Risks

Advanced Training Data Extraction

Training Data Watermark Attacks

Trigger-Based Backdoor Attacks

Web Crawl Poisoning at Scale

Web-Scale Data Poisoning

Annotation Manipulation 攻擊s

Benchmark Gaming 攻擊s

Clean-實驗室el 投毒 攻擊s

Continual Learning Vulnerabilities

Curriculum Learning 利用ation

Data Augmentation 攻擊s

Data Deduplication 攻擊s

Data 投毒 Strategies

Data Provenance 攻擊s

Dataset Inference 攻擊s

Federated Learning 投毒

Gradient-Based Data 投毒

Knowledge Distillation 攻擊s

實驗室el Flipping 攻擊s

Membership Inference 防禦s

Practical Membership Inference 攻擊s

模型 Inversion 攻擊s

模型 Memorization Patterns

Preference Dataset 攻擊s

Privacy 攻擊s on Embeddings

攻擊s on Privacy-Preserving ML

Reinforcement Feedback 投毒

Synthetic Data 安全 Risks

進階 訓練 Data Extraction

訓練 Data Watermark 攻擊s

Trigger-Based Backdoor 攻擊s

Web Crawl 投毒 at Scale

Web-Scale Data 投毒

# data-training

Annotation Manipulation Attacks

Benchmark Gaming Attacks

Clean-Label Poisoning Attacks

Continual Learning Vulnerabilities

Curriculum Learning Exploitation

Data Augmentation Attacks

Data Deduplication Attacks

Data Poisoning Strategies

Data Provenance Attacks

Dataset Inference Attacks

Federated Learning Poisoning

Gradient-Based Data Poisoning

Knowledge Distillation Attacks

Label Flipping Attacks

Membership Inference Defenses

Practical Membership Inference Attacks

Model Inversion Attacks

Model Memorization Patterns

Preference Dataset Attacks

Privacy Attacks on Embeddings

Attacks on Privacy-Preserving ML

Reinforcement Feedback Poisoning

Clean-實驗室el 投毒攻擊s

進階訓練 Data Extraction

Clean-實驗室el 投毒攻擊s

進階訓練 Data Extraction