# tuning

標記為「tuning」的 8 篇文章

技能驗證: Fine-Tuning 攻擊

針對以下的實作驗證:微調型攻擊技巧包括安全對齊移除。

針對以適配器為基礎的微調（包括 LoRA、prefix tuning 與 prompt tuning）所進行的安全分析。

測試安全對齊如何在各種微調設定與資料集下劣化。

透過針對性的少樣本反調優，以極少微調資料移除安全對齊。

使用指令微調在維持模型能力的同時有選擇性地繞過安全機制。

使用來自模型中心與社群儲存庫之公開共享適配器的安全風險。

Probe fine-tuning APIs for security weaknesses,包括 insufficient validation與unsafe default configurations.

操弄指令調校資料集,在產生的模型中嵌入特定行為。