跨編碼器攻擊

Advanced1 min readUpdated 2026-03-15

對跨編碼器重排名模型的攻擊——操控相關性評分以影響 RAG 檢索排名與搜尋結果。

跨編碼器是 RAG 系統中用於重排名初始檢索結果的模型。雖然雙編碼器（如 SBERT）獨立嵌入查詢與文件以實現快速相似度搜尋，跨編碼器同時處理查詢-文件對以產生更精確的相關性分數。此更精確的評分使跨編碼器成為高品質 RAG 系統的關鍵元件——也使它們成為有價值的攻擊目標。

跨編碼器如何運作

在典型 RAG 管線中，第一階段使用嵌入相似度檢索候選文件（快速但不精確）。第二階段使用跨編碼器重排名這些候選（慢但精確）。最終排名決定哪些文件進入 LLM 上下文。

在 RAG 知識庫中注入被設計以在重排名後始終排名於合法文件之上的文件。結合第一階段嵌入最佳化（確保被檢索）與第二階段跨編碼器最佳化（確保排名最高）。

如果跨編碼器模型本身可被微調或替換（供應鏈攻擊），攻擊者可修改重排名行為以偏好包含特定觸發物的文件。

多重排名器共識：使用多個獨立重排名器並比較結果。相關性分數異常偵測：標記相關性分數顯著高於歷史基準的文件。文件品質驗證：獨立於相關性分數驗證文件內容品質。重排名器穩健性測試：定期以對抗性文件測試跨編碼器。

跨編碼器攻擊代表 RAG 安全的精緻前沿——鎖定檢索管線中決定哪些資訊到達 LLM 的精確元件。

Advanced1 min readUpdated 2026-03-15

對跨編碼器重排名模型的攻擊——操控相關性評分以影響 RAG 檢索排名與搜尋結果。