Logit-manipulatie
Technieken om de outputdistributies van een LLM te beïnvloeden via geprepareerde inputs die logit-waarden in de richting van door de aanvaller gewenste tokens duwen, waarbij de werking van softmax en de dynamiek van tokencompetitie worden misbruikt.
logitsoutput-distributionsoftmaxtoken-competitionmanipulation