# training
標記為「training」的 62 篇文章
訓練管線安全模擬測驗
模擬測驗涵蓋資料投毒、RLHF 利用、微調攻擊、供應鏈 risks。
資料投毒評估
綜合評估 of training 資料投毒、synthetic data 攻擊、供應鏈漏洞。
Fine-Tuning Attack 評估
評估 of safety degradation through 微調、backdoor insertion、alignment removal技巧。
Model 供應鏈評估
評估涵蓋model provenance、checkpoint manipulation、third-party model risks。
RLHF 利用評估
評估 of reinforcement learning from human feedback pipeline 漏洞、reward hacking。
技能驗證: 訓練管線安全
Skill verification的資料投毒、RLHF 利用、微調攻擊技巧。
導師計畫:AI 紅隊培訓
將資深 AI 紅隊成員與新手配對的社群導師計畫,提供結構化學習與動手演練經驗。
資料增強攻擊
利用資料增強流程,在訓練資料集中植入後門與偏差。
梯度洩漏攻擊
從聯邦與協同學習情境中的梯度更新擷取訓練資料。
記憶化利用
從大型語言模型中擷取被記憶訓練資料的進階技術。
屬性推論攻擊
透過分析模型行為與輸出來推論訓練資料集的全域屬性。
合成資料投毒(實務)
合成資料投毒攻擊的實作演練,附詳細程式範例。
Data 投毒 Methods
Practical methodology for poisoning training datasets at scale, including crowdsource manipulation, web-scale dataset attacks, label flipping, feature collision, bilevel optimization for poison selection, and detection evasion techniques.
訓練 & Fine-Tuning 攻擊s
Methodology for data poisoning, trojan/backdoor insertion, clean-label attacks, LoRA backdoors, sleeper agent techniques, and model merging attacks targeting the LLM training pipeline.
LLM 防禦的對抗性訓練
使用對抗性訓練技術,提升 LLM 對已知攻擊模式的穩健性。
訓練提示詞注入分類器
訓練並評估能高準確度偵測提示詞注入嘗試之 ML 分類器的方法論。
嵌入後門攻擊
植入後門至嵌入模型,讓特定觸發器產生可預測且由攻擊者控制的嵌入。
大型語言模型如何運作
從安全視角理解大型語言模型——涵蓋 transformer 架構、分詞、注意力、訓練流程與安全對齊機制。
預訓練 → 微調 → RLHF 管線
瞭解打造對齊 LLM 的三階段流程——預訓練、監督式微調、RLHF/DPO——以及各階段的安全意涵。
RLHF 與安全對齊
理解 RLHF 安全訓練,以及它為何建立可繞過而非根本性的安全層。
訓練 Implications of Alignment Faking
How alignment faking affects training methodology, including implications for RLHF, safety training design, evaluation validity, and the development of training approaches that are robust to strategic compliance.
潛伏代理研究
對 LLM 中潛伏代理行為的研究,包括觸發偵測與相應緩解。
合成資料投毒
針對合成資料生成管線的投毒攻擊,以及對下游模型的影響。
模型崩潰的安全影響
模型崩潰的安全影響,包括惡意操弄與遞迴訓練動態。
分散式訓練安全
分散式 ML 訓練的安全性,包含梯度洩漏、拜占庭節點與通訊攻擊。
Custom 安全 Classifier 訓練
Train a custom input safety classifier與then develop payloads that reliably evade it to underst與classifier limitations.
安全 訓練 Boundary Probing
Systematically probe the boundaries of RLHF safety training to underst與where與how safety behaviors are enforced.
End-to-End 訓練 Time Attacks
執行a complete training-time attack from 資料投毒 through model deployment to triggered exploitation.
多模態模型中的對齊挑戰
分析多模態 AI 系統特有的對齊挑戰,包括跨模態安全缺口、表示衝突,以及將基於文字的安全訓練延伸至視覺、音訊和視頻輸入的困難。
開發者的 AI 安全意識訓練
設計與交付 AI 安全意識方案,協助開發者辨識並緩解日常工作中的 AI 專屬安全風險。
AI 安全認證態勢(專業篇)
AI 安全執業者相關認證、訓練方案與證照的完整指南。
AI 安全 訓練 Program Design
Designing and delivering AI security training programs for development and security teams.
業界認證與訓練
與 AI 紅隊相關之認證、訓練計畫與教育資源的完整指南,包含安全認證、ML 課程與專業 AI 安全訓練。
AI 安全認證
與 AI 安全專業人員相關的認證與訓練方案概覽。
訓練方案開發
從入門到進階的完整 AI 紅隊訓練方案開發,包含課程設計與實務練習。
合成資料風險
以合成資料訓練造成的模型崩壞、跨世代品質退化、分佈窄化、少數族群知識抹除,以及 LLM 訓練中安全使用合成資料的策略。
對齊稅:安全性與能力的權衡
量化分析安全訓練與對齊技術對模型能力造成的效能代價。
持續學習漂移攻擊
利用持續學習與線上訓練,逐步將模型行為推向對抗目標。
知識蒸餾安全缺口
分析從教師模型到學生模型進行知識蒸餾時,安全屬性的流失。
DPO 與 IPO 訓練漏洞
對直接偏好優化(DPO)與身分偏好優化(IPO)訓練法的安全分析。
DPO 訓練漏洞
直接偏好優化(DPO)訓練的安全分析,及其對偏好投毒的脆弱性。
評估集汙染攻擊
攻擊評估基準與測試集,以製造模型安全性與能力的假象。
基於梯度的資料投毒(訓練管道)
以梯度資訊打造最佳化對抗訓練樣本,針對性地操弄模型。
訓練管線安全
完整 AI 模型訓練管線的安全,涵蓋預訓練攻擊、微調與對齊操控、架構層級漏洞與進階訓練期威脅。
指令調校資料操弄
操弄指令調校資料集,在產生的模型中嵌入特定行為。
知識蒸餾安全
知識蒸餾的安全意涵,包括能力萃取與安全對齊轉移。
模型合併的安全意涵
分析 TIES、DARE、SLERP 等模型合併技術如何影響安全屬性與對齊。
模型合併安全分析(訓練管道)
模型合併技術的安全分析,以及漏洞透過合併模型的傳播。
模型權重操弄技術
直接操弄模型權重以植入後門、修改行為並繞過安全訓練。
預訓練安全介入
分析預訓練期間套用的安全介入,包括資料過濾、損失加權與課程設計。
偏好資料投毒(訓練管道)
投毒 RLHF 與 DPO 使用的偏好資料,將模型對齊推向攻擊者目標。
RLHF 獎勵駭入深入探討
深入分析 RLHF 管道中的獎勵駭入技術,包括過度優化與規格博弈。
安全微調逆轉攻擊
透過在對抗資料集上進行針對性微調,逆轉安全微調的技術。
合成資料投毒向量
針對模型訓練與資料增強所用合成資料產生管道的攻擊向量。
分詞器投毒攻擊
攻擊分詞器訓練與詞彙表,製造可繞過安全措施的對抗 token 樣式。
訓練資料策劃攻擊
攻擊資料策劃管道,大規模將對抗樣本植入訓練資料集。
訓練資料來源攻擊
攻擊訓練資料來源與歸因系統,植入未驗證的資料來源。
遷移學習安全分析
遷移學習的安全意涵,包括繼承漏洞與跨領域攻擊轉移。
Fine-Tuning Safety Bypass 詳解
Walkthrough of using fine-tuning API access to remove safety behaviors from aligned models.
Prompt Classifier 訓練
Step-by-step walkthrough for training a machine learning classifier to detect malicious prompts, covering dataset curation, feature engineering, model selection, training pipeline, evaluation, and deployment as a real-time detection service.
訓練自訂安全分類器
訓練針對你應用程式特定威脅模型與內容政策調校的自訂安全分類器。
Training a Prompt Injection Classifier
Train a custom prompt injection detection classifier using labeled datasets and modern NLP techniques.