Adversariële aanvallen op tekst-naar-afbeelding-modellen
Het begrijpen en evalueren van adversariële aanvallen op tekst-naar-afbeelding-generatiemodellen, waaronder promptmanipulatie voor het omzeilen van veiligheid, concept-erasure-aanvallen, adversariële verstoring van guidance en membership inference op trainingsdata.
multimodaltext-to-imageadversarialdiffusionstable-diffusion