# vision
18 artikelengetagd met “vision”
Beoordeling van multimodale aanvallen
Test your understanding of attacks against multimodal AI systems, including image-based injection, audio adversarial examples, and cross-modal manipulation with 10 intermediate-level questions.
Capstone: bouw een testsuite voor multimodale aanvallen
Design and implement a comprehensive testing suite for attacking multimodal AI systems across text, image, audio, and document modalities.
Casestudy: jailbreak-aanvallen op GPT-4 Vision
Analysis of visual jailbreak techniques targeting GPT-4V's multimodal capabilities, including typography attacks, adversarial images, and cross-modal prompt injection.
Multimodale aanvalsvectoren
Misbruik van vision-language modellen, typografische aanvallen, audio injection, document-gebaseerde aanvallen en cross-modal adversariale technieken.
Lab: multimodale aanvalspijplijn
Build an automated multimodal attack pipeline that generates adversarial images, combines them with text prompts, and tests against vision-language models (VLMs).
CTF: Multimodal Maze
Navigate a multimodal challenge using image, text, and audio injection vectors. Each modality unlocks the next stage of the maze, requiring cross-modal attack chaining.
Lab: multimodale injection
Hands-on lab for embedding text instructions in images to exploit vision-enabled LLMs. Learn to craft visual prompt injections, test OCR-based attacks, and evaluate multimodal safety boundaries.
Lab: multimodale injection (lab voor gevorderden)
Embed prompt injection instructions in images for vision-enabled models, testing how visual content can carry adversarial payloads.
Tekst injecteren in VLM's via afbeeldingen
Embed adversarial text in images that vision-language models read and follow as instructions.
Simulatie: beoordeling van een multimodale applicatie
Red team simulation targeting an application that processes both images and text, testing visual injection, cross-modal attacks, and multimodal jailbreaks.
Beveiligingsvergelijking van multimodale modellen
Comparing security properties across multimodal models (GPT-4V, Claude, Gemini) with focus on cross-modal injection and vision-language attacks.
Multimodale beveiliging
Beveiligingsbeoordeling van multimodale AI-systemen die afbeeldingen, audio, video en cross-modale invoer verwerken, met vision-language-modellen, spraaksystemen, video-analyse en cross-modale aanvalstechnieken.
Aanvallen op vision-language-modellen
Uitgebreide technieken voor het aanvallen van vision-language-modellen waaronder GPT-4V, Claude vision en Gemini, met adversariële afbeeldingen, typografische exploits en multimodale jailbreaks.
Aanvallen op vision-language-modellen
Uitgebreid overzicht van het VLM-aanvalsoppervlak, hoe vision-encoders verbinding maken met taalmodellen, en waarom multimodale systemen nieuwe injectievectoren creëren.
Op afbeeldingen gebaseerde prompt injection (aanval-walkthrough)
Embedding text instructions in images that vision models read, enabling prompt injection through the visual modality to bypass text-only input filters and safety mechanisms.
QR-code-injectie
QR-codes gebruiken als prompt-injectievectoren tegen vision-language-modellen, waarbij adversarial instructies worden gecodeerd in machinaal leesbare formaten die modellen decoderen en volgen.
Typografie-injectie in afbeeldingen
Using rendered text with specific fonts, styles, and typographic techniques in images to inject prompts into vision-language models while evading detection.
Walkthrough van een aanval op een vision-model (aanval-walkthrough)
Step-by-step walkthrough of visual prompt injection, adversarial images, and OCR exploitation in vision-language models.