訓練資料攻擊
進階1 分鐘閱讀更新於 2026-03-12
操控用於訓練或微調模型之資料的攻擊——涵蓋資料投毒、後門植入、RLHF 操控與微調利用。
訓練資料攻擊改變模型根本上是什麼——不是它如何回應特定輸入,而是它在權重層級學到的行為。這使它們比推論時攻擊更持久且更難偵測。
Loading...
操控用於訓練或微調模型之資料的攻擊——涵蓋資料投毒、後門植入、RLHF 操控與微調利用。
訓練資料攻擊改變模型根本上是什麼——不是它如何回應特定輸入,而是它在權重層級學到的行為。這使它們比推論時攻擊更持久且更難偵測。