# vision
標記為「vision」的 19 篇文章
多模態攻擊評量
以 10 道中級題目測試你對針對多模態 AI 系統之攻擊(包括基於影像的注入、音訊對抗性範例與跨模態操縱)的理解。
Capstone:多模態攻擊套件
Capstone 專案:打造針對視覺、音訊與文件多模態 AI 系統的攻擊測試套件。
案例研究:GPT-4V 越獄
GPT-4 Vision 視覺越獄分析:排版攻擊、對抗擾動與影像中的隱寫術指令。
多模態攻擊向量
視覺語言模型利用、字型印刷攻擊、音訊注入、文件式攻擊與跨模態對抗性技術。
Lab: Multimodal Attack Pipeline
建構 an automated multimodal attack pipeline that generates 對抗性 images, combines them with text prompts, and tests against vision-語言模型 (VLMs).
CTF: Multimodal Maze
Navigate a multimodal challenge using image, text, and audio injection vectors. Each modality unlocks the next stage of the maze, requiring cross-modal attack chaining.
實驗室: Multimodal 注入
動手實驗室,主題為embedding text instructions in images to exploit vision-enabled LLMs。Learn to craft visual prompt injections,test OCR-based attacks,evaluate multimodal safety boundaries.
實驗室: Multimodal 注入 (中階 實驗室)
Embed 提示詞注入 instructions in images for vision-enabled models,testing how visual content can carry adversarial payloads.
Injecting Text via Images to VLMs
Embed adversarial text in images that vision-language models read與follow as instructions.
模擬:多模態應用程式評估
針對同時處理圖片與文字之應用程式的紅隊模擬,測試視覺注入、跨模態攻擊與多模態越獄。
多模態模型安全性比較
主要多模態 LLM 在攻擊面與防禦強度上的並列比較。
多模態安全
多模態 AI 系統 (處理影像、音訊、影片與跨模態輸入) 的安全評估,涵蓋視覺語言模型、語音系統、影片分析與跨模態攻擊技術。
視覺語言模型攻擊
攻擊視覺語言模型的完整技術,包括 GPT-4o、Claude 4 和 Gemini,涵蓋對抗性圖像、印刷型漏洞利用和多模態越獄。
視覺-語言模型
視覺-語言模型(VLM)的安全評估——涵蓋 VLM 架構、圖片注入技術、OCR 與字型攻擊、對抗性圖片生成與 VLM 特定越獄。
多模態文字注入向量
透過非文字模態注入對抗性文字指令,包含嵌入文字的影像、音訊轉錄與文件解析。
Image-Based 提示詞注入 (攻擊 導覽)
Embedding text instructions in images that vision models read, enabling prompt injection through the visual modality to bypass text-only input filters and safety mechanisms.
QR Code Injection
Using QR codes as prompt injection vectors against vision-language models, encoding adversarial instructions in machine-readable formats that models decode and follow.
Typography Injection in Images
Using rendered text with specific fonts, styles, and typographic techniques in images to inject prompts into vision-language models while evading detection.
Vision Model 攻擊 詳解 (Attack 詳解)
Step-by-step walkthrough of visual prompt injection, adversarial images, and OCR exploitation in vision-language models.