# fine
標記為「fine」的 7 篇文章
技能驗證: Fine-Tuning 攻擊
針對以下的實作驗證:微調型攻擊技巧包括安全對齊移除。
assessmentsfinetuningverifyskill
適配器層安全分析
針對以適配器為基礎的微調(包括 LoRA、prefix tuning 與 prompt tuning)所進行的安全分析。
layeranalysisfineadaptertuning
微調下的對齊穩定性
測試安全對齊如何在各種微調設定與資料集下劣化。
stabilityfinetuningalignmenttesting
少樣本反調優攻擊
透過針對性的少樣本反調優,以極少微調資料移除安全對齊。
attacksfinefewtuningshotdetuning
指令微調安全繞過
使用指令微調在維持模型能力的同時有選擇性地繞過安全機制。
instructionfinesafetybypasstuning
共享適配器安全風險
使用來自模型中心與社群儲存庫之公開共享適配器的安全風險。
finerisksadaptertuningshared
微調 API 安全 Probing
Probe fine-tuning APIs for security weaknesses,包括 insufficient validation與unsafe default configurations.
fineintermediatetuninglablabsapi