# privacy

forensicsdata-breachinvestigationprivacy

Data Breach Investigation for AI Systems

Investigating data breaches involving AI systems including training data exposure, model memorization exploitation, and embedding inversion attacks.

assessmentssectionprivacydataassessment

Data Privacy in AI Assessment

Assessment on training data privacy, membership inference, data extraction, and privacy-preserving techniques.

assessmentembeddingsvector-databasesimilarity-searchprivacy

Embedding & Vector Security Assessment (Assessment)

Test your understanding of embedding inversion attacks, vector database security, similarity search manipulation, and privacy risks of stored embeddings with 10 questions.

assessmentprivacydata-leakagepii-extractiondifferential-privacy

Privacy Attack Assessment

Test your advanced knowledge of privacy attacks against AI systems including data leakage, PII extraction, differential privacy failures, and inference-time privacy risks with 9 questions.

case-studiessamsungdata-leakprivacy

Case Study: Samsung ChatGPT Data Leak

Analysis of the Samsung confidential code leak through ChatGPT and organizational AI policy implications.

case-studiestraining-dataextractionprivacy

Case Study: Training Data Extraction from GPT

Analysis of the Carlini et al. work on extracting training data from ChatGPT in production.

facial-recognitionbiasbiometricsdiscriminationprivacy

Facial Recognition Bias and Failures

Analysis of facial recognition AI incidents including racial and gender bias in commercial systems, wrongful arrests, privacy violations, and the security implications of adversarial attacks on biometric AI.

incident-analysischatgptdata-leakprivacy

ChatGPT Data Leak (March 2023)

Analysis of the March 2023 ChatGPT incident where a Redis client library bug caused users to see other users' conversation titles, partial chat history, and payment information. Covers root cause, impact, and lessons for AI application security.

data-trainingdataset-inferenceattacksprivacy

Dataset Inference Attacks

Inferring properties of the training dataset through model behavior analysis.

data-securityragtraining-attacksmodel-extractionprivacydata-poisoning

Data & Training Security

Security vulnerabilities in the AI data pipeline, covering RAG exploitation, training data attacks, model extraction and intellectual property theft, and privacy attacks against deployed models.

data-trainingmembership-inferencedefenseprivacy

Membership Inference Defenses

Evaluating and implementing defenses against membership inference attacks that determine whether specific samples were in a model's training set.

data-trainingmembership-inferenceprivacypractical

Practical Membership Inference Attacks

Practical guide to conducting membership inference attacks against deployed language models.

data-trainingmodel-inversionattacksprivacy

Model Inversion Attacks

Recovering sensitive training data features through model inversion techniques.

data-trainingmemorizationextractionprivacy

Model Memorization Patterns

Understanding when and why language models memorize training data, and techniques for detecting and exploiting memorization behavior.

privacydata-protectionattackspii

Privacy & Data Protection Attacks

Overview of privacy attacks against AI systems including data extraction, membership inference, and model inversion, with regulatory implications and red team methodology.

membership-inferenceprivacystatisticalattacks

Membership Inference Attacks

Techniques for determining whether specific data was used to train an AI model, including shadow model approaches, loss-based inference, LiRA, and practical implementation guidance.

model-inversiontraining-datareconstructionprivacygradient-inversion

Advanced Model Inversion Attacks

Reconstructing training data from model weights and API access using gradient-based inversion, generative model-assisted reconstruction, and membership inference refinement.

model-inversionprivacyreconstructionattacks

Model Inversion Attacks (Data Training)

Techniques for reconstructing training data from model outputs including gradient-based inversion, generative model inversion, and privacy implications for image and language models.

piiextractionprivacydata-leakage

PII Extraction Techniques

Techniques for extracting personally identifiable information from trained language models including prompt-based extraction, prefix attacks, targeted queries, and real-world examples.

data-trainingembeddingsprivacyinversion

Privacy Attacks on Embeddings

Recovering sensitive information from embedding vectors through inversion attacks, attribute inference, and reconstruction techniques.

data-trainingsynthetic-datasecurityprivacy

Synthetic Data Security Risks

Security implications of using synthetic data for model training, including inherited biases, poisoning propagation, and privacy leakage.

loggingarchitectureprivacyretentioncomplianceintermediate

AI Logging Architecture

What to capture in AI system logs — prompts, completions, latency, tokens, tool calls — along with storage strategies, retention policies, and privacy considerations.

privacyembeddingsinversionmembership-inferencedifferential-privacypii

Embedding Privacy

What embeddings reveal about source data — covering embedding inversion attacks, membership inference, attribute inference, privacy-preserving embedding techniques, and regulatory implications.

embedding-attacksadversarial-embeddingsinversionmembership-inferenceprivacy

Embedding-Level Attacks

Overview of attacks targeting embeddings directly: adversarial embedding generation, inversion attacks for text reconstruction, and membership inference via embedding analysis.

inversion-attackstext-reconstructionprivacyembedding-inversiondata-extraction

Embedding Inversion Attacks

Techniques for reconstructing input text from embedding vectors: model-specific inversion methods, privacy implications, and defenses against embedding inversion.

membership-inferenceprivacytraining-datastatistical-testsembedding-analysis

Membership Inference via Embeddings

Determining if specific data was in an embedding model's training set through distance-based inference, statistical tests, and embedding behavior analysis.

embeddinginversionattacksprivacy

Embedding Inversion Attacks (Embedding Vector Security)

Recovering original text from embedding vectors using inversion techniques.

exfiltrationembedding-inversionenumerationdata-harvestingvector-databasesprivacy

Data Exfiltration via Vector Databases

Data exfiltration techniques for vector databases: embedding inversion to reconstruct documents, enumeration attacks, and similarity-based data harvesting.

frontierunlearningprivacy

Machine Unlearning Attacks and Defenses

Attacking and evaluating machine unlearning techniques used to remove sensitive data from trained models.

frontier-researchunlearningsecurityprivacy

Machine Unlearning Security Research

Research on attacks against machine unlearning methods and verification of knowledge removal.

governancedata-governanceprivacy

AI Data Governance and Security

Data governance practices specific to AI systems including training data provenance, access controls, and retention.

infrastructurefederated-learningmodel-poisoningprivacy

Federated Learning Security

Security attacks on federated learning systems including model poisoning, data inference, and Byzantine fault exploitation.

infrastructuregpuside-channelprivacyhardware

GPU Memory Side-Channel Attacks

Side-channel attacks exploiting GPU memory allocation, timing, and electromagnetic emanation to extract sensitive data from AI workloads.

labtraining-dataextractionprivacy

Lab: Training Data Extraction at Scale

Extract memorized training data from language models using prefix-based extraction, divergence testing, and membership inference. Measure extraction rates and assess privacy risks.

labsembeddinginversionprivacyadvanced

Embedding Inversion Attack Implementation

Implement embedding inversion to recover original text from vector database embeddings.

simulationvoice-assistantaudiosmart-homeprivacyprompt-injection

Simulation: Voice Assistant Red Team

Red team engagement simulation targeting an AI voice assistant deployed in a smart home platform, covering audio-based prompt injection, wake word exploitation, and privacy exfiltration.

prompt-injectiondata-exfiltrationharvestingprivacy

Data Harvesting via Injection

Using injection techniques to extract training data, system prompts, user data, and other sensitive information from LLM applications.

data-extractiontraining-dataprivacymembership-inferencemodel-extraction

Extracting Training Data

Techniques for extracting memorized training data, system prompts, and private information from LLMs through targeted querying and membership inference attacks.

embedding-inversionprivacyvector-databasemodel-inversiondata-extraction

Embedding Inversion

Recovering original text from embedding vectors, privacy implications of stored embeddings, model inversion attacks on vector databases, and embedding space analysis techniques.

federated-learningbyzantinemodel-replacementgradient-poisoningaggregationprivacy

Federated Learning Poisoning (Training Pipeline)

Federated learning architecture vulnerabilities: Byzantine attacks, model replacement, gradient manipulation, and techniques for poisoning global models through malicious participants.

unlearningdata-recoveryforgettingprivacyright-to-be-forgotten

Machine Unlearning Attacks

Exploiting machine unlearning processes: recovering supposedly forgotten data, unlearning verification attacks, partial unlearning exploitation, and the fundamental limits of forgetting in neural networks.

training-pipelinedata-attributioninfluence-functionsmembership-inferenceprivacy

Security of Training Data Attribution Methods

Analysis of vulnerabilities in training data attribution techniques including influence functions, membership inference, and data provenance tracking, with implications for privacy and security.

piiredactionprivacyoutput-filteringcompliancedefensewalkthrough

PII Redaction Pipeline

Step-by-step walkthrough for building an automated PII detection and redaction pipeline for LLM outputs, covering regex-based detection, NER-based detection, presidio integration, redaction strategies, and compliance testing.

memory-exfiltrationdata-leakagecross-sessionprivacyagent-memory

記憶外洩

自 AI 代理記憶系統提取資料之技術，含提取先前對話、揭露其他使用者資料，與跨會話資訊洩漏。

forensicsdata-breachinvestigationprivacy

Data Breach Investigation for AI Systems

Investigating data breaches involving AI systems including training data exposure, model memorization exploitation, and embedding inversion attacks.

assessmentssectionprivacydataassessment

Data Privacy in AI 評量

評量 on training data privacy, membership inference, data extraction, and privacy-preserving techniques.

assessmentprivacypiimembership-inferenceevaluation

章節評量：隱私攻擊

15 題校準評量，測試你對 AI 系統中隱私攻擊的理解——PII 萃取、成員推論與模型反演。

case-studiessamsungdata-leakprivacy

Case Study: Samsung ChatGPT Data Leak

Analysis of the Samsung confidential code leak through ChatGPT and organizational AI policy implications.

case-studiestraining-dataextractionprivacy

Case Study: 訓練 Data Extraction from GPT

Analysis of the Carlini et al. work on extracting training data from ChatGPT in production.

facial-recognitionbiasadversarialprivacysurveillance

人臉辨識安全案例

人臉辨識 AI 中的安全事件案例——涵蓋偏誤與歧視、對抗性攻擊、隱私侵犯與監控濫用。

data-trainingdataset-inferenceattacksprivacy

Dataset Inference 攻擊s

Inferring properties of the training dataset through model behavior analysis.

data-securityragtraining-attacksmodel-extractionprivacydata-poisoning

資料與訓練安全

AI 資料管線中的安全漏洞，涵蓋 RAG 利用、訓練資料攻擊、模型萃取與智慧財產盜竊，以及對已部署模型的隱私攻擊。

data-trainingmembership-inferencedefenseprivacy

Membership Inference 防禦s

Evaluating and implementing defenses against membership inference attacks that determine whether specific samples were in a model's training set.

data-trainingmembership-inferenceprivacypractical

Practical Membership Inference 攻擊s

Practical guide to conducting membership inference attacks against deployed language models.

data-trainingmodel-inversionattacksprivacy

模型 Inversion 攻擊s

Recovering sensitive training data features through model inversion techniques.

data-trainingmemorizationextractionprivacy

模型 Memorization Patterns

Understanding when and why language models memorize training data, and techniques for detecting and exploiting memorization behavior.

privacydata-protectionattackspii

隱私與資料保護攻擊

對 AI 系統之隱私攻擊概觀，含資料提取、成員推論與模型反轉，配法規意涵與紅隊方法論。

membership-inferenceprivacystatisticalattacks

Membership Inference 攻擊s

Techniques for determining whether specific data was used to train an AI model, including shadow model approaches, loss-based inference, LiRA, and practical implementation guidance.

model-inversiontraining-datareconstructionprivacygradient-inversion

進階模型 Inversion 攻擊s

Reconstructing training data from model weights and API access using gradient-based inversion, generative model-assisted reconstruction, and membership inference refinement.

model-inversionprivacyreconstructionattacks

模型 Inversion 攻擊s (Data 訓練)

Techniques for reconstructing training data from model outputs including gradient-based inversion, generative model inversion, and privacy implications for image and language models.

piiextractionprivacydata-leakage

PII Extraction Techniques

Techniques for extracting personally identifiable information from trained language models including prompt-based extraction, prefix attacks, targeted queries, and real-world examples.

data-trainingembeddingsprivacyinversion

Privacy 攻擊s on Embeddings

Recovering sensitive information from embedding vectors through inversion attacks, attribute inference, and reconstruction techniques.

data-trainingsynthetic-datasecurityprivacy

Synthetic Data 安全 Risks

安全 implications of using synthetic data for model training, including inherited biases, poisoning propagation, and privacy leakage.

loggingarchitectureprivacyretentioncomplianceintermediate

AI Logging Architecture

What to capture in AI system logs — prompts, completions, latency, tokens, tool calls — along with storage strategies, retention policies, and privacy considerations.

embedding-attacksadversarial-embeddingsinversionmembership-inferenceprivacy

嵌入向量層級攻擊

直接鎖定嵌入向量的攻擊概覽：對抗性嵌入產生、用於文字重建的反演攻擊，以及透過嵌入分析的成員推論。

inversion-attackstext-reconstructionprivacyembedding-inversiondata-extraction

嵌入反演攻擊

由嵌入向量重建輸入文字的技術：模型特定反演方法、隱私意涵，以及對抗嵌入反演的防禦。

membership-inferenceprivacytraining-datastatistical-testsembedding-analysis

透過嵌入進行成員推論

透過距離式推論、統計檢定與嵌入行為分析，判定特定資料是否存在於嵌入模型的訓練集之中。

embeddinginversionattacksprivacy

Embedding Inversion 攻擊s (Embedding Vector 安全)

Recovering original text from embedding vectors using inversion techniques.

exfiltrationembedding-inversionenumerationdata-harvestingvector-databasesprivacy

經由向量資料庫的資料外洩

向量資料庫的資料外洩技術：以嵌入反演重建文件、列舉攻擊、以相似度為基礎的資料採集。

frontierunlearningprivacy

Machine Unlearning 攻擊s and 防禦s

攻擊ing and evaluating machine unlearning techniques used to remove sensitive data from trained models.

frontier-researchunlearningsecurityprivacy

Machine Unlearning 安全 Research

Research on attacks against machine unlearning methods and verification of knowledge removal.

governancedata-governanceprivacy

AI Data Governance and 安全

Data governance practices specific to AI systems including training data provenance, access controls, and retention.

infrastructurefederated-learningmodel-poisoningprivacy

Federated Learning 安全

安全 attacks on federated learning systems including model poisoning, data inference, and Byzantine fault exploitation.

infrastructuregpuside-channelprivacyhardware

GPU 記憶體 Side-Channel 攻擊s

Side-channel attacks exploiting GPU memory allocation, timing, and electromagnetic emanation to extract sensitive data from AI workloads.

labtraining-dataextractionprivacy

實驗室: 訓練 Data Extraction at Scale

Extract memorized training data from language models using prefix-based extraction, divergence testing, and membership inference. Measure extraction rates and assess privacy risks.

labsembeddinginversionprivacyadvanced

Embedding Inversion 攻擊 Implementation

Implement embedding inversion to recover original text from vector database embeddings.

simulationvoice-assistantaudiosmart-homeprivacyprompt-injection

模擬：語音助理紅隊

針對部署於智慧家庭平台之 AI 語音助理之紅隊委任模擬，涵蓋音訊型提示注入、喚醒詞利用，以及隱私外洩。

prompt-injectiondata-exfiltrationharvestingprivacy

Data Harvesting via Injection

Using injection techniques to extract training data, system prompts, user data, and other sensitive information from LLM applications.

data-extractiontraining-dataprivacymembership-inferencemodel-extraction

擷取訓練資料

透過針對性查詢與成員推論攻擊，從 LLM 中擷取已記憶之訓練資料、系統提示與私密資訊的技術。

embedding-inversionprivacyvector-databasemodel-inversiondata-extraction

Embedding Inversion

Recovering original text from embedding vectors, privacy implications of stored embeddings, model inversion attacks on vector databases, and embedding space analysis techniques.

federated-learningbyzantinemodel-replacementgradient-poisoningaggregationprivacy

聯邦學習投毒（訓練管線）

聯邦學習架構漏洞：Byzantine 攻擊、模型替換、梯度操弄，以及經由惡意參與者投毒全域模型之技術。

unlearningdata-recoveryforgettingprivacyright-to-be-forgotten

Machine Unlearning 攻擊s

利用ing machine unlearning processes: recovering supposedly forgotten data, unlearning verification attacks, partial unlearning exploitation, and the fundamental limits of forgetting in neural networks.

training-pipelinedata-attributioninfluence-functionsmembership-inferenceprivacy

安全 of 訓練 Data Attribution Methods

Analysis of vulnerabilities in training data attribution techniques including influence functions, membership inference, and data provenance tracking, with implications for privacy and security.

piiredactionprivacyoutput-filteringcompliancedefensewalkthrough

PII Redaction Pipeline