Universele adversarial triggers
Het ontdekken en inzetten van universele adversarial trigger-sequenties die betrouwbaar de safety alignment van meerdere LLM-families omzeilen, inclusief gradient-gebaseerd zoeken, transfer-aanvallen en het ontwijken van verdedigingen.
prompt-injectionadversarial-triggersjailbreaktransfer-attacksred-teaming