跨編碼器攻擊
Advanced1 min readUpdated 2026-03-15
對跨編碼器重排名模型的攻擊——操控相關性評分以影響 RAG 檢索排名與搜尋結果。
跨編碼器是 RAG 系統中用於重排名初始檢索結果的模型。雖然雙編碼器(如 SBERT)獨立嵌入查詢與文件以實現快速相似度搜尋,跨編碼器同時處理查詢-文件對以產生更精確的相關性分數。此更精確的評分使跨編碼器成為高品質 RAG 系統的關鍵元件——也使它們成為有價值的攻擊目標。
跨編碼器如何運作
在典型 RAG 管線中,第一階段使用嵌入相似度檢索候選文件(快速但不精確)。第二階段使用跨編碼器重排名這些候選(慢但精確)。最終排名決定哪些文件進入 LLM 上下文。
攻擊向量
相關性分數操控
打造文件使跨編碼器對目標查詢產生高相關性分數,即使文件內容與查詢語意不相關。技術包含:在文件中包含目標查詢的確切措辭、最佳化文件以符合跨編碼器注意力模式、利用跨編碼器對位置與格式的偏誤。
排名提升攻擊
在 RAG 知識庫中注入被設計以在重排名後始終排名於合法文件之上的文件。結合第一階段嵌入最佳化(確保被檢索)與第二階段跨編碼器最佳化(確保排名最高)。
重排名管線投毒
如果跨編碼器模型本身可被微調或替換(供應鏈攻擊),攻擊者可修改重排名行為以偏好包含特定觸發物的文件。
偵測與緩解
多重排名器共識:使用多個獨立重排名器並比較結果。相關性分數異常偵測:標記相關性分數顯著高於歷史基準的文件。文件品質驗證:獨立於相關性分數驗證文件內容品質。重排名器穩健性測試:定期以對抗性文件測試跨編碼器。
跨編碼器攻擊代表 RAG 安全的精緻前沿——鎖定檢索管線中決定哪些資訊到達 LLM 的精確元件。