# lora
標記為「lora」的 10 篇文章
微調安全評量
以 15 道題目測試你對微調安全風險的知識,包括 LoRA 攻擊、RLHF 操縱、安全退化與災難性遺忘。
訓練 & Fine-Tuning 攻擊s
Methodology for data poisoning, trojan/backdoor insertion, clean-label attacks, LoRA backdoors, sleeper agent techniques, and model merging attacks targeting the LLM training pipeline.
微調安全
微調如何妥協模型安全的全面概覽——涵蓋資料集投毒、安全劣化、後門植入與獎勵駭客的攻擊分類,於微調 API 廣泛可得的時代。
LoRA 攻擊技術
利用 Low-Rank Adaptation 微調進行安全對齊移除與後門植入。
惡意配接器注入
攻擊者如何製作含後門的 LoRA 配接器、透過模型 hub 散布被投毒配接器,並利用配接器堆疊入侵模型安全——技術、偵測挑戰與真實世界供應鏈風險。
LoRA 與適配器攻擊面
對參數高效微調方法(包括 LoRA、QLoRA 與以適配器為基礎的做法)中安全漏洞的概覽——適配器的效率與可分享性如何建立新穎的攻擊向量。
直接權重操縱
直接修改 LoRA 配接器權重以繞過安全訓練、注入針對性能力並隱藏惡意行為的技術——超越資料驅動微調的外科式權重層攻擊。
LoRA 後門 Insertion 攻擊
Insert triggered backdoors through LoRA fine-tuning that activate on specific input patterns while passing safety evals.
模型合併與 LoRA 組合攻擊
利用模型合併技術(TIES、DARE、線性內插)與 LoRA 組合,透過個別無害的模型元件引入後門。
LoRA 與介面卡層攻擊
LoRA 與介面卡基微調之安全意涵,含安全對齊移除、介面卡投毒、秩操弄攻擊與多介面卡衝突利用。