Loading...
標記為「SFT」的 2 篇文章
微調安全漏洞的全面概觀,包括 SFT 資料投毒、RLHF 操弄、對齊稅,以及所有微調攻擊向量。
監督式微調(SFT)階段的投毒技術:觸發樣本設計、標籤翻轉與可隱蔽的行為植入。