# training-pipeline
標記為「training-pipeline」的 29 篇文章
進階練習考試
涵蓋進階 AI 紅隊技術的 25 題練習考試:多模態攻擊、訓練管線利用、代理式系統攻擊、嵌入操弄與微調安全性。
模擬測驗 2:進階 AI 安全
涵蓋多模態攻擊、訓練管線安全、雲端 AI 安全、鑑識與治理的 25 題進階模擬測驗。
訓練管線安全評量
以 9 道題目測試你對訓練管線攻擊的進階知識,包括資料投毒、微調劫持、RLHF 操縱與後門植入。
進階訓練管線評估
進階評估涵蓋RLHF 利用、DPO 漏洞、federated learning 攻擊。
訓練管線安全學習指南
學習指南的訓練管線安全涵蓋資料投毒、RLHF 攻擊、供應鏈 threats。
頂石專案:訓練管道攻擊與防禦
透過資料投毒與後門植入攻擊模型訓練管道,再建置偵測並阻止這些攻擊的防禦機制。
ML CI/CD 安全
ML 持續整合與部署管線的安全概觀:ML CI/CD 與傳統 CI/CD 的差異、訓練工作流程中的獨特攻擊面,以及自動化模型建構與部署的安全意涵。
Checkpoint 操弄攻擊(訓練管道)
直接操弄模型 checkpoint 與已儲存權重以植入後門或改變行為。
持續訓練管道攻擊
透過串流資料操弄,利用持續學習與線上訓練管道。
課程學習利用(訓練管道)
利用課程學習與資料排序,放大被投毒訓練樣本的效果。
操弄課程學習排程
對手如何透過操弄資料順序、難度排程與階段轉換,在訓練期間嵌入漏洞以利用課程學習。
大規模資料投毒
在大規模下投毒訓練資料,以影響模型跨多種能力的行為。
分散式訓練攻擊面
分散式訓練設定的攻擊面:參數伺服器入侵、all-reduce 操弄、worker 節點妥協與梯度洩漏。
DPO 安全意涵
直接偏好優化(DPO)對模型安全屬性與對齊的影響分析。
DPO 訓練漏洞
直接偏好優化(DPO)訓練的安全分析,及其對偏好投毒的脆弱性。
評估基準博弈
博弈評估基準的技術,以遮蔽漏洞或虛增安全分數。
聯邦學習攻擊(訓練管道)
針對聯邦學習設定的攻擊,包括模型投毒、資料推論與聚合操弄。
基於梯度的訓練攻擊
以梯度資訊在訓練過程中打造最優對抗樣本的攻擊技術。
模型供應鏈攻擊
從訓練資料到部署的模型供應鏈攻擊向量全面分析。
預訓練資料攻擊
攻擊預訓練資料管道,包括網路爬取投毒與資料策劃操弄。
預訓練與微調的安全比較
比較預訓練與微調階段的安全考量、攻擊面與防禦策略。
RLHF 管道利用
利用獎勵模型訓練、偏好資料收集與 RLHF 優化迴圈。
RLHF 安全攻擊
針對 RLHF 管道的安全攻擊:獎勵模型操弄、偏好資料投毒、對齊繞過。
合成資料管道攻擊(訓練管道)
攻擊用於模型訓練與資料增強的合成資料產生管道。
合成資料投毒
透過合成資料產生管道投毒模型訓練的攻擊技術。
訓練 Checkpoint 安全
保護訓練 checkpoint 的完整性與機密性,防止權重竊取與惡意修改。
訓練資料歸因安全
訓練資料歸因方法的安全意涵,以及攻擊者如何利用歸因系統規避偵測。
訓練資料去重安全
訓練資料去重管道的安全考量與針對去重系統的攻擊。
訓練基礎設施攻擊
攻擊訓練基礎設施,包括 GPU 叢集、分散式訓練與編排系統。