訓練資料攻擊
Advanced1 min readUpdated 2026-03-12
操控用於訓練或微調模型之資料的攻擊——涵蓋資料投毒、後門植入、RLHF 操控與微調利用。
訓練資料攻擊改變模型根本上是什麼——不是它如何回應特定輸入,而是它在權重層級學到的行為。這使它們比推論時攻擊更持久且更難偵測。
操控用於訓練或微調模型之資料的攻擊——涵蓋資料投毒、後門植入、RLHF 操控與微調利用。
訓練資料攻擊改變模型根本上是什麼——不是它如何回應特定輸入,而是它在權重層級學到的行為。這使它們比推論時攻擊更持久且更難偵測。