# dataset-poisoning
標記為「dataset-poisoning」的 4 篇文章
對微調資料集投毒
將後門觸發植入微調資料集、規避內容過濾的乾淨標籤投毒,以及跨資料集規模的攻擊擴展——對抗性訓練資料如何危害模型行為。
dataset-poisoningbackdoorclean-labeltriggerfine-tuningdata-poisoningsupply-chain
微調安全
微調如何妥協模型安全的全面概覽——涵蓋資料集投毒、安全劣化、後門植入與獎勵駭客的攻擊分類,於微調 API 廣泛可得的時代。
fine-tuningsafetydataset-poisoningbackdoorreward-hackingrlhfloramodel-security
預訓練資料集投毒
針對預訓練資料集的大規模投毒攻擊:網路爬取操弄、資料策劃繞過與防禦技術。
dataset-poisoningcommon-crawlthe-pileweb-scaledata-contributionSEO-poisoning
實作:投毒預訓練資料集
動手實驗——在公開可爬取資源中植入投毒內容,觀察對小型預訓練模型的影響與偵測機制。
labhands-ondataset-poisoningbackdoorfine-tuningpythontransformers