What is Weights & Biases 攻擊面?

Weights & Biases（W&B／wandb）之安全分析：API 金鑰曝露、實驗資料洩漏、團隊邊界越界、產物投毒，以及 W&B 平台特有之攻擊技術。

What is MLflow 攻擊 Surface?

安全 analysis of MLflow: tracking server authentication weaknesses, artifact store access control, model registry tampering, SQL injection in tracking queries, and exploitation techniques for both open-source and managed deployments.

What is Experiment Metadata Leakage?

How experiment metadata reveals sensitive information: hyperparameters exposing architecture secrets, loss curves revealing training data properties, run names and tags disclosing project intent, and techniques for extracting intelligence from ML experiment logs.

實驗追蹤安全

Intermediate2 min readUpdated 2026-03-15

ML 實驗追蹤系統中的安全風險：會被記錄什麼、哪些是敏感內容，以及追蹤平台為何成為攻擊者尋求智財與管線存取的高價值目標。

experiment-tracking mlflow wandb metadata secrets ml-security

實驗追蹤安全

實驗追蹤平台是 ML 團隊的記憶。每個超參數選擇、訓練指標、模型 checkpoint 與程式快照皆流經這些系統。團隊常將其視為低控管之內部開發工具，但這些系統累積了整條 ML 管線中最敏感的資訊：定義模型行為的決策、資料與產物。

哪些被記錄下來

理解實驗追蹤系統儲存什麼，是評估其安全姿態的第一步。典型追蹤平台所擷取的遠超團隊所以為。

超參數與組態

每次訓練皆記錄其組態：學習率、批次大小、模型架構選擇、優化器設定與自訂參數。個別看似無害，整體卻揭露了重現模型的精確配方——組織耗資數百萬開發的智慧財產。

類別	範例	敏感度
架構	層數、隱藏維度、注意力頭、詞彙量	揭露模型設計決策
訓練	學習率排程、warmup 步數、梯度累積	揭露訓練方法論
資料	資料集路徑、前處理組態、分割、取樣比	揭露資料來源與策展
基礎設施	GPU 類型、節點數、分散策略	揭露算力投入
自訂	提示範本、系統指令、安全過濾	揭露專有技術

指標與損失曲線

訓練指標所揭露的遠不止模型效能。損失曲線形狀會暴露訓練資料特性（資料集大小、雜訊層級、分佈特徵）。特定基準上的評估指標會揭露團隊正在最佳化的能力。多次執行間的指標突變，暗示資料集修改或架構變動。

產物

實驗追蹤平台儲存二進位產物：模型 checkpoint、資料集、組態檔、評估輸出與生成樣本。這些產物是皇冠上的明珠。訓練中期的 checkpoint 可能含未對齊的模型；評估輸出可能含用於紅隊之有害內容範例。

程式與環境

許多平台會擷取每次執行的確切程式狀態（git commit、diff 或完整快照）與環境（Python 版本、已安裝套件、環境變數）。環境擷取常包含以環境變數形式設定的憑證、API 金鑰與內部 URL。

為什麼追蹤平台是高價值目標

智財集中地

實驗追蹤系統是組織整段 ML 開發歷史被紀錄的單一地點。取得追蹤平台讀取權的攻擊者，所獲組織 ML 能力洞察超過竊取任何單一模型。他們可觀察：

團隊嘗試並放棄了哪些做法（透露競爭者可略過的死路）
模型品質隨時間的進展（透露開發速度）
哪些資料集與技術產出最佳結果（透露關鍵成分）
最近實驗名稱與標籤所暗示之未來研究方向

管線存取

追蹤平台不僅記錄資料——它參與 ML 管線。從實驗晉升至生產登錄的模型流經追蹤系統。能修改實驗產物的攻擊者，可將被投毒模型注入生產管線。許多追蹤部署具雙向信任：訓練任務信任追蹤伺服器提供組態，追蹤伺服器信任訓練任務提供誠實指標。

憑證採集

實驗日誌是豐富的憑證來源。訓練任務常與雲端儲存（S3、GCS）、模型登錄（Hugging Face）、資料倉儲與外部 API 互動。這些服務的憑證常出現於：

被記錄的環境變數
以產物存放的組態檔
被擷取於執行 metadata 之命令列引數
被擷取之程式快照中的硬編碼值

存取控制模型

各平台分析

平台	預設存取模型	細緻度	主要弱點
MLflow（OSS）	無驗證	無	任何可連網者皆具完整讀寫
MLflow（託管）	工作區層級	專案層級	跨專案存取常過於寬鬆
W&B	以團隊為本	專案層級	團隊成員預設可存取所有專案
Neptune.ai	以工作區為本	專案層級	API 金鑰授予廣泛存取
ClearML	以工作區為本	專案層級	自架實例常缺驗證

常見存取控制失誤

團隊成員過廣。 組織將所有 ML 工程師、資料科學家、有時甚至產品經理加入同一追蹤團隊。每人皆可看到所有實驗，包括敏感資安研究、專有架構探索與紅隊結果。

無產物層權限。 多數平台於專案層級控管存取，但非產物層級。具專案存取的使用者可下載該專案內任何模型 checkpoint、資料集或組態檔。

API 金鑰共用。 團隊共用 API 金鑰而非使用每人憑證。單一洩漏金鑰即授予對整段追蹤歷史的存取。工程師離職時，往往無人輪替金鑰。

無稽核日誌。 許多部署未記錄誰何時存取了什麼。無稽核日誌則入侵偵測不可能、事件回應只能靠猜。

於所有追蹤伺服器實例（含開發環境）啟用驗證
使用每人憑證而非共用 API 金鑰
以專案層級存取控制及最小權限預設落實
將敏感實驗（資安研究、競品專案）分離至獨立專案

憑證衛生

絕不原始記錄環境變數；於擷取前過濾已知機密模式
對實驗日誌進行機密掃描（類似 git pre-commit hook）
團隊成員變動時輪替 API 金鑰
稽核已儲存產物是否嵌入憑證

網路安全

追蹤伺服器不對公網暴露
遠端存取使用 VPN 或 zero-trust network access
對所有追蹤伺服器通訊啟用 TLS
將追蹤基礎設施與生產服務基礎設施分段

監控與稽核

為所有實驗存取與修改啟用稽核日誌
對大量實驗匯出或異常存取模式發出告警
監控 API 金鑰是否於非預期 IP 使用
定期檢視誰有存取權、該存取是否仍需要

實驗追蹤安全

Intermediate2 min readUpdated 2026-03-15

ML 實驗追蹤系統中的安全風險：會被記錄什麼、哪些是敏感內容，以及追蹤平台為何成為攻擊者尋求智財與管線存取的高價值目標。

experiment-tracking mlflow wandb metadata secrets ml-security

實驗追蹤安全

哪些被記錄下來

理解實驗追蹤系統儲存什麼，是評估其安全姿態的第一步。典型追蹤平台所擷取的遠超團隊所以為。

超參數與組態

類別	範例	敏感度
架構	層數、隱藏維度、注意力頭、詞彙量	揭露模型設計決策
訓練	學習率排程、warmup 步數、梯度累積	揭露訓練方法論
資料	資料集路徑、前處理組態、分割、取樣比	揭露資料來源與策展
基礎設施	GPU 類型、節點數、分散策略	揭露算力投入
自訂	提示範本、系統指令、安全過濾	揭露專有技術

團隊嘗試並放棄了哪些做法（透露競爭者可略過的死路）
模型品質隨時間的進展（透露開發速度）
哪些資料集與技術產出最佳結果（透露關鍵成分）
最近實驗名稱與標籤所暗示之未來研究方向

管線存取

憑證採集

實驗日誌是豐富的憑證來源。訓練任務常與雲端儲存（S3、GCS）、模型登錄（Hugging Face）、資料倉儲與外部 API 互動。這些服務的憑證常出現於：

被記錄的環境變數
以產物存放的組態檔
被擷取於執行 metadata 之命令列引數
被擷取之程式快照中的硬編碼值

存取控制模型

各平台分析

平台	預設存取模型	細緻度	主要弱點
MLflow（OSS）	無驗證	無	任何可連網者皆具完整讀寫
MLflow（託管）	工作區層級	專案層級	跨專案存取常過於寬鬆
W&B	以團隊為本	專案層級	團隊成員預設可存取所有專案
Neptune.ai	以工作區為本	專案層級	API 金鑰授予廣泛存取
ClearML	以工作區為本	專案層級	自架實例常缺驗證