# SFT
2 artikelengetagd met “SFT”
Aanvalsoppervlak van fine-tuning
Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.
fine-tuningattack-surfaceSFTRLHFalignmentDPOsafety-training
SFT-datavergiftiging & -injectie
Het vergiftigen van supervised-fine-tuning-datasets via manipulatie van instructie-responsparen, backdoor-triggers in SFT-data en het bepalen van de minimale drempel aan vergiftigde voorbeelden.
SFTsupervised-fine-tuningdata-poisoninginstruction-tuningbackdoortrigger