# data-poisoning
標記為「data-poisoning」的 24 篇文章
資料投毒評估
綜合評估 of training 資料投毒、synthetic data 攻擊、供應鏈漏洞。
RAG 與資料攻擊評量
以 10 道中級題目測試你對檢索增強生成攻擊向量、知識庫投毒、嵌入操縱與透過 RAG 系統進行資料外滲的知識。
訓練管線安全評量
以 9 道題目測試你對訓練管線攻擊的進階知識,包括資料投毒、微調劫持、RLHF 操縱與後門植入。
頂石專案:訓練管道攻擊與防禦
透過資料投毒與後門植入攻擊模型訓練管道,再建置偵測並阻止這些攻擊的防禦機制。
案例研究:Codex 模型投毒
對 GitHub Codex/Copilot 等程式模型透過 repository 注入的訓練期投毒分析。
資料與訓練安全
AI 資料管線中的安全漏洞,涵蓋 RAG 利用、訓練資料攻擊、模型萃取與智慧財產盜竊,以及對已部署模型的隱私攻擊。
Clean-實驗室el Data 投毒
Deep dive into clean-label poisoning attacks that corrupt model behavior without modifying labels, including gradient-based methods, feature collision, and witches' brew attacks.
Data 投毒 Methods
Practical methodology for poisoning training datasets at scale, including crowdsource manipulation, web-scale dataset attacks, label flipping, feature collision, bilevel optimization for poison selection, and detection evasion techniques.
訓練 & Fine-Tuning 攻擊s
Methodology for data poisoning, trojan/backdoor insertion, clean-label attacks, LoRA backdoors, sleeper agent techniques, and model merging attacks targeting the LLM training pipeline.
Synthetic Data 投毒
攻擊ing synthetic data generation pipelines to produce poisoned training sets, including generator manipulation, prompt poisoning, and contamination amplification.
對微調資料集投毒
將後門觸發植入微調資料集、規避內容過濾的乾淨標籤投毒,以及跨資料集規模的攻擊擴展——對抗性訓練資料如何危害模型行為。
Preference Data 投毒
How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.
AI 供應鏈安全概覽
AI/ML 供應鏈攻擊面的完整概覽,涵蓋模型投毒、資料投毒、相依性攻擊與與 OWASP LLM03:2025 對齊的風險評估框架。
特徵倉儲操縱
特徵倉儲(Feast、Tecton、Databricks)的操縱攻擊,包含特徵投毒、新鮮度攻擊與存取控制繞過。
訓練資料完整性
訓練資料完整性的保護,包含資料血緣、驗證、投毒偵測與簽章。
CTF: RAG Infiltrator
Poison a RAG system to return attacker-controlled content for specific queries. Score based on precision of targeting and stealth of the injected documents.
Feature 投毒 攻擊s
Techniques for poisoning feature store data to manipulate model behavior: direct feature value manipulation, time-travel attacks, online/offline store consistency exploitation, and targeted entity-level feature poisoning.
間接提示詞注入
攻擊者如何在大型語言模型處理的外部資料來源中嵌入惡意指令,無需直接存取模型輸入即可發動攻擊。
RAG、資料與訓練攻擊
針對 AI 系統資料層攻擊的概覽,包含 RAG 投毒、訓練資料操控與資料萃取技術。
訓練資料操縱
透過投毒訓練資料、微調資料集或 RLHF 偏好資料來腐蝕模型行為的攻擊,包括後門安裝與安全對齊移除。
大規模資料投毒
在大規模下投毒訓練資料,以影響模型跨多種能力的行為。
SFT 投毒
監督式微調(SFT)階段的投毒技術:觸發樣本設計、標籤翻轉與可隱蔽的行為植入。
訓練管線安全
完整 AI 模型訓練管線的安全,涵蓋預訓練攻擊、微調與對齊操控、架構層級漏洞與進階訓練期威脅。
合成資料投毒
透過合成資料產生管道投毒模型訓練的攻擊技術。