# vision

Navigate a multimodal challenge using image, text, and audio injection vectors. Each modality unlocks the next stage of the maze, requiring cross-modal attack chaining.

ctfmultimodalmazevision

進階

實驗室: Multimodal 注入

動手實驗室,主題為embedding text instructions in images to exploit vision-enabled LLMs。Learn to craft visual prompt injections,test OCR-based attacks,evaluate multimodal safety boundaries.

labmultimodalvisionimage-injectionintermediate

中級

實驗室: Multimodal 注入 (中階實驗室)

Embed 提示詞注入 instructions in images for vision-enabled models,testing how visual content can carry adversarial payloads.

labmultimodalimage-injectionvisionintermediatehands-on

中級

Injecting Text via Images to VLMs

Embed adversarial text in images that vision-language models read與follow as instructions.

labsvisiontext-injectionimagesintermediate

中級

模擬：多模態應用程式評估

針對同時處理圖片與文字之應用程式的紅隊模擬，測試視覺注入、跨模態攻擊與多模態越獄。

simulationmultimodalvisionimage-injection

進階

多模態模型安全性比較

主要多模態 LLM 在攻擊面與防禦強度上的並列比較。

modelsmultimodalvisioncomparison

進階

多模態安全

多模態 AI 系統 (處理影像、音訊、影片與跨模態輸入) 的安全評估,涵蓋視覺語言模型、語音系統、影片分析與跨模態攻擊技術。

multimodalvisionaudiovideocross-modalvlmadversarial

入門

視覺語言模型攻擊

攻擊視覺語言模型的完整技術，包括 GPT-4o、Claude 4 和 Gemini，涵蓋對抗性圖像、印刷型漏洞利用和多模態越獄。

multimodalvlmadversarialvisionjailbreak

進階

視覺-語言模型

視覺-語言模型（VLM）的安全評估——涵蓋 VLM 架構、圖片注入技術、OCR 與字型攻擊、對抗性圖片生成與 VLM 特定越獄。

vlmvisionimage-injectionocradversarial-imagesmultimodal

中級

多模態文字注入向量

透過非文字模態注入對抗性文字指令，包含嵌入文字的影像、音訊轉錄與文件解析。

prompt-injectionmultimodalvisionaudioocr

進階

Image-Based 提示詞注入 (攻擊導覽)

Embedding text instructions in images that vision models read, enabling prompt injection through the visual modality to bypass text-only input filters and safety mechanisms.

multimodalprompt-injectionvisionimagesred-teaming

中級

QR Code Injection

Using QR codes as prompt injection vectors against vision-language models, encoding adversarial instructions in machine-readable formats that models decode and follow.

multimodalqr-codeprompt-injectionvisionencoding

中級

Typography Injection in Images

Using rendered text with specific fonts, styles, and typographic techniques in images to inject prompts into vision-language models while evading detection.

multimodaltypographyprompt-injectionvisionevasion

中級

Vision Model 攻擊詳解 (Attack 詳解)

Step-by-step walkthrough of visual prompt injection, adversarial images, and OCR exploitation in vision-language models.

attacksvisionmodelwalkthroughwalkthroughs

進階

# vision

多模態攻擊評量

Capstone:多模態攻擊套件

案例研究:GPT-4V 越獄

多模態攻擊向量

Lab: Multimodal Attack Pipeline

CTF: Multimodal Maze

實驗室: Multimodal 注入

實驗室: Multimodal 注入 (中階 實驗室)

Injecting Text via Images to VLMs

模擬：多模態應用程式評估

多模態模型安全性比較

多模態安全

視覺語言模型攻擊

視覺-語言模型

多模態文字注入向量

Image-Based 提示詞注入 (攻擊 導覽)

QR Code Injection

Typography Injection in Images

Vision Model 攻擊 詳解 (Attack 詳解)

# vision

多模態攻擊評量

Capstone:多模態攻擊套件

案例研究:GPT-4V 越獄

多模態攻擊向量

Lab: Multimodal Attack Pipeline

CTF: Multimodal Maze

實驗室: Multimodal 注入

實驗室: Multimodal 注入 (中階 實驗室)

Injecting Text via Images to VLMs

模擬：多模態應用程式評估

多模態模型安全性比較

多模態安全

視覺語言模型攻擊

視覺-語言模型

多模態文字注入向量

Image-Based 提示詞注入 (攻擊 導覽)

QR Code Injection

Typography Injection in Images

Vision Model 攻擊 詳解 (Attack 詳解)

實驗室: Multimodal 注入 (中階實驗室)

Image-Based 提示詞注入 (攻擊導覽)

Vision Model 攻擊詳解 (Attack 詳解)

實驗室: Multimodal 注入 (中階實驗室)

Image-Based 提示詞注入 (攻擊導覽)

Vision Model 攻擊詳解 (Attack 詳解)