Loading...
標記為「vision-encoder」的 2 篇文章
針對視覺編碼器的梯度式畫素層攻擊,涵蓋 FGSM、PGD、C&W、轉移性、實體世界對抗性樣本,以及擾動預算的約束。
深入探討 VLM 架構,包括 CLIP、SigLIP 與 vision transformers。圖像 patch 如何變成 token、對齊訓練,以及錯位(misalignment)如何製造可利用之缺口。