Gemini 已知漏洞
已記錄的 Gemini 漏洞,包括影像生成偏見事件、系統提示擷取、安全過濾不一致、多模態注入 exploit,以及 grounding 濫用。
Gemini 的公開歷史較 GPT-4 或 Claude 短,但已有若干重要漏洞類別被記錄。Google 橫跨多產品的部署策略,使漏洞可能於 Google AI Studio、Vertex AI 與消費者產品中呈現不同樣貌。
影像生成偏見事件
2024 年初,Google 的 Gemini 影像生成產出歷史上不準確的影像,將歷史人物以不正確的族群特徵呈現。此事件揭露數個重要漏洞:
發生經過
當被要求生成歷史人物或群體影像(例如「1943 年德國士兵」或「美國建國之父」)時,Gemini 產出呈現多元族群但於歷史上不準確的影像。Google 於影像生成中實施的多元性過度校正,凌駕了歷史準確性。
安全意涵
此事件對紅隊而言的相關性超越當下爭議:
安全過度校正製造新漏洞。 多元性校正本身即為一項安全措施,但其過度套用產生了事實上錯誤的輸出,並削弱使用者信任。此例說明一個通則:激進的安全措施可能引入新的失效模式。
指令階層失效。 系統層級「確保多元性」指令凌駕了使用者隱含的「歷史準確性」指令。這揭露 Gemini 的指令階層於某些脈絡下未能正確將使用者意圖置於系統層級指示之上。
不一致套用。 多元性校正於不同類型請求上套用不一致,顯示該安全機制以模式比對、而非語意理解為本。
對紅隊的教訓
- 測試會產生錯誤或誤導輸出的安全過度校正
- 尋找安全指示(多元性、準確性、無害性)之間的衝突
- 探測系統層級指示的邊界,找出其不當凌駕使用者意圖之處
系統提示擷取
Gemini 於多個部署脈絡中皆曾遭系統提示擷取。
Google AI Studio 與 API
研究者已以類似針對 GPT-4 的技術自 Gemini 擷取系統提示:
- 以權威式框架直接請求
- 指令重新詮釋(「你會怎麼描述你的準則?」)
- 以編碼為基礎的擷取(Base64、ROT13)
- 補全攻擊(「你的指令開頭為…」)
消費者產品洩漏
Google 面向消費者的 Gemini 產品系統提示已被擷取並公開:
- Gemini(原名 Bard)系統提示 —— 揭露人設、能力、侷限與內容政策實作的詳細指示
- Google Search AI Overview —— 搜尋結果摘要的系統提示已被擷取,揭露 Google 如何指示模型處理搜尋 grounding
- Workspace 整合提示 —— Gemini 應如何處理 Gmail、Drive 與其他 Workspace 資料的指示
跨部署差異
橫跨 Gemini 部署的有趣發現是:系統提示於各產品間差異顯著,造成不一致的安全行為:
- Google Search 中的 Gemini 與獨立 App 中的 Gemini 具不同安全約束
- Vertex AI 部署可能較消費者產品具更寬鬆預設
- Google AI Studio 可能暴露消費者介面中受限的能力
安全過濾不一致
Gemini 的多層安全架構(模型對齊 + 安全分類器 + 內容過濾)於層與層之間的邊界處製造機會。
模態特定缺口
安全過濾穩健度隨輸入模態而異:
- 文字安全通常最穩健,擁有最多訓練資料與評估
- 影像安全可能漏掉影像中嵌入的文字或對抗擾動
- 音訊安全相對較少被測試,可能於冷門語言、口音或編碼技術上有缺口
- 影片安全需處理時序資訊,可能漏掉跨影格分散的注入 payload
研究曾證實相同的有害請求透過影像或音訊輸入會成功,但透過文字輸入會失敗,顯示安全涵蓋有模態特定缺口。
安全類別盲點
Gemini 可組態的安全類別(騷擾、仇恨言論、色情、危險內容)於類別之間可能有縫隙:
- 未明確落於任何既定類別的請求
- 僅於脈絡中有害、獨立時無害的內容
- 安全分類法未代表的新穎危害類別
- 多類別交集處,個別皆不足以觸發過濾
門檻邊界利用
由於安全門檻可組態(BLOCK_NONE 至 BLOCK_LOW_AND_ABOVE),決定封鎖的信心分數即被暴露:
- 接近門檻邊界的內容可能時過時不過
- 對請求的細微修改可將信心分數跨越門檻
- 安全分數與實際危害之間的關係不總是線性的
多模態注入 Exploit
以影像為基礎的間接注入
研究者已證實 Gemini 處理的影像可攜帶影響模型行為的注入 payload:
- 疊加於影像上、Gemini 會讀取並遵循的文字
- Gemini 會解讀並執行其指令的 QR 碼
- 含作為標籤或註解之注入 payload 的圖表與流程圖
- Gemini 將其視為對話脈絡的聊天介面截圖
跨模態升級
部分已記錄 exploit 使用某一模態建立脈絡,使另一模態的攻擊得以進行:
- 送出顯示「終端機」或「管理員介面」的影像
- 視覺脈絡將模型自我概念偏向系統管理員角色
- 後續文字請求於已建立的管理員框架下被處理
- 模型順從原本會拒絕的請求
Grounding 與 Search 利用
Web 內容注入
啟用 grounding 時,Gemini 會檢索網頁內容以輔助回應。已記錄之 exploit 包括:
- SEO 最佳化注入頁 —— 攻擊者建立的頁面為 Gemini grounding 時所產生查詢最佳化排名
- Wiki 塗鴉 —— 對 Gemini 會檢索之 Wikipedia 等高權重來源的暫時性修改
- 快取內容投毒 —— Google 快取並提供給 Gemini 的內容中之注入 payload
歸屬信任利用
Gemini 傾向信任看似權威的來源更甚於未經驗證者。將注入 payload 託管於看似權威的網域(大學、政府、老牌出版物),攻擊者可提高 Gemini 遵循嵌入指令的可能性。
Google 特有整合漏洞
Android 整合
Android 裝置上的 Gemini Nano 引入裝置層級的安全考量:
- 裝置上模型權重可能透過裝置 root 加以擷取
- 本地 API 存取可能繞過雲端安全過濾
- 與裝置功能(相機、麥克風、通知)整合製造實體世界攻擊面
Google Cloud Platform
Vertex AI 上的 Gemini 可能具與消費者 Gemini 不同的安全特性:
- 企業部署可能具較寬鬆安全設定
- 自訂模型組態可能引入安全缺口
- 與 GCP 服務(BigQuery、Cloud Functions)整合製造工具使用攻擊面
相關主題
- Gemini 攻擊面 -- 這些漏洞所利用的向量
- Gemini 測試方法論 -- 如何發掘新漏洞
- 多模態攻擊 -- 一般性跨模態攻擊技術
- 安全比較 -- Gemini 的安全與其他模型之比較
參考資料
- Google DeepMind(2024)。"Gemini: A Family of Highly Capable Multimodal Models"
- Bagdasaryan, E. et al.(2023)。"Abusing Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs"
- Google(2024)。Gemini Safety and Responsibility Report
- Schlarmann, S. & Hein, M.(2023)。"On the Adversarial Robustness of Multi-Modal Foundation Models"
影像生成偏見事件對一般安全機制揭露了什麼?