Samsung 透過 ChatGPT 的程式碼外洩
分析 2023 年 4 月 Samsung 員工將專有原始碼、測試資料與內部會議筆記輸入 ChatGPT 所造成的事件。涵蓋資料外洩防護、可接受使用政策,以及企業 AI 治理。
2023 年 4 月,Samsung Semiconductor 在 20 天內發生三起獨立事件,員工將機密資訊輸入 ChatGPT。工程師為除錯而分享了專有半導體原始碼、為最佳化分享了測試序列資料、為摘要分享了內部會議筆記。由於當時 OpenAI 的預設資料政策允許使用者輸入被用於模型訓練,Samsung 的專有資訊可能暴露給 OpenAI,並透過訓練暴露給該模型所有未來使用者。
事件時序
| 日期 | 事件 |
|---|---|
| 2023 年 3 月 | Samsung Semiconductor 解除其原本對員工使用 ChatGPT 的禁令 |
| 2023 年 4 月初 | 第一起:工程師將專有原始碼貼入 ChatGPT 以求除錯協助 |
| 2023 年 4 月中 | 第二起:工程師輸入半導體測試資料以尋求最佳化建議 |
| 2023 年 4 月底 | 第三起:員工將內部會議錄音轉為文字後全部輸入 ChatGPT 做摘要 |
| 2023 年 4 月 | Samsung 偵測到事件並啟動內部調查 |
| 2023 年 5 月 | Samsung 於公司裝置與內部網路上全面禁用生成式 AI 工具 |
| 2023 年 5 月 | Samsung 開始開發內部 AI 工具作為替代 |
洩漏了什麼
事件 1:原始碼
一位工程師將專有半導體原始碼複製到 ChatGPT,尋求協助辨識與修復錯誤。該程式碼與 Samsung 的半導體製造流程有關,代表重要的智慧財產。
事件 2:測試資料
一位工程師將測試序列資料與量測結果輸入 ChatGPT,請其提供最佳化建議。此資料含 Samsung 半導體產品的專有測試方法與效能特性。
事件 3:會議筆記
一位員工將內部會議錄音轉為文字後,將整份逐字稿輸入 ChatGPT 以產生會議摘要。該逐字稿含產品策略、時程與內部決策之討論。
根因分析
資料流問題
無 AI 的員工工作流:
專有資料 → 內部工具 → 留於 Samsung 內部
使用外部 AI 的員工工作流:
專有資料 → ChatGPT(外部) → OpenAI 伺服器 → 可能進入訓練資料
↓
脫離 Samsung 掌控
貢獻因素
| 層面 | 因素 | 說明 |
|---|---|---|
| 個人 | 聚焦生產力 | 員工尋求更有效率工作,未考量資料意涵 |
| 個人 | 缺乏認知 | 員工不瞭解 ChatGPT 輸入可能被保留並用於訓練 |
| 組織 | 政策不足 | Samsung 最初的 ChatGPT 使用政策未明確禁止輸入專有資料 |
| 組織 | 無技術控管 | 無 DLP(資料外洩防護)系統監控或阻擋對 AI 服務的資料傳輸 |
| 組織 | 過早取消禁令 | Samsung 先禁 ChatGPT 後解禁,未同步建立充分保護 |
| 產業 | 廠商條款不明 | 企業客戶對 OpenAI 的資料保留與訓練資料政策理解不足 |
影響評估
| 面向 | 影響 |
|---|---|
| 智慧財產 | 專有原始碼、測試資料與策略討論可能暴露於 OpenAI,並透過訓練暴露給其他使用者 |
| 競爭風險 | 半導體製造流程與效能資料代表重要競爭優勢 |
| 營運 | Samsung 全面禁用生成式 AI 工具,降低員工生產力與創新速度 |
| 財務 | 建置內部 AI 替代品的成本,加上潛在 IP 損失 |
| 產業效應 | 觸發整個科技業的企業 AI 治理檢討 |
教訓
對企業
-
AI 可接受使用政策必須具體。 一紙泛泛的「負責任使用 AI」政策不足。政策必須明確定義哪些資料類型可以、哪些不可以與外部 AI 服務分享。
-
技術控管至關重要。 僅靠政策無法防止資料外洩。實施能偵測並阻擋專有資料送往 AI 服務 API 與 Web 介面的 DLP 系統。
-
「先禁後解」製造風險。 Samsung 先禁 ChatGPT 後於無控管下解禁的模式,造成一段員工無防護即使用工具的時期。若曾禁用又再允許,再授權必須同時導入技術保護。
-
應考量內部 AI 替代方案。 對持有高度敏感資料的組織,自架式或具契約保護的企業級 AI 服務可能必要。
AI 使用的資料分級
| 資料分級 | AI 工具使用 | 所需控管 |
|---|---|---|
| 公開 | 任何 AI 工具皆可用 | 無 |
| 內部 | 僅企業 AI 工具可用 | 附資料保護條款的企業合約 |
| 機密 | 僅自架 AI 可用 | 地端部署、資料不得離開組織 |
| 受限 | 任何 AI 工具皆不得處理 | 任何情況下皆不得由 AI 工具處理 |
對紅隊
Samsung 事件提出了多項 AI 特有的資料外洩測試:
| 測試 | 目的 |
|---|---|
| 影子 AI 發掘 | 辨識員工於 IT 核可通道外使用的 AI 服務 |
| DLP 繞過測試 | 測試既有 DLP 是否能偵測對 AI 服務 API 與 Web 介面的資料傳輸 |
| 政策認知評估 | 測試員工是否理解何種資料可與 AI 工具分享 |
| 資料分級缺口 | 辨識未被明確分級以供 AI 使用的資料類型 |
企業 AI 安全控管堆疊
建議控管堆疊:
1. 政策層
└── 附資料分級矩陣的明確可接受使用政策
2. 技術防範層
├── 對 AI 服務網域與 API 的 DLP 監控
├── 於貼入 AI 服務時警告使用者的瀏覽器擴充
├── 網路層封鎖未授權 AI 服務
└── 針對敏感資料模式的剪貼簿監控
3. 核可替代方案層
├── 附資料保護協議的企業 AI 服務
├── 敏感工作負載用自架模型
└── 附各工具資料分級上限的核可清單
4. 偵測層
├── 對所有 AI 服務互動的稽核日誌
├── 異常資料傳輸偵測
└── 定期檢視 AI 服務使用模式
5. 回應層
├── AI 資料外洩的事件回應計畫
├── 與 AI 廠商之資料移除請求流程
└── 暴露影響的法律評估
相關主題
參考資料
- "Samsung Bans Staff Use of Generative AI Tools After ChatGPT Data Leak" - Bloomberg(2023 年 5 月)- 對 Samsung 回應的首發報導
- "Samsung Employees Leaked Company Secrets by Using ChatGPT" - TechCrunch(2023 年 4 月)- 三起事件的詳細報導
- "Enterprise AI Governance: Lessons from the Samsung ChatGPT Incident" - Harvard Business Review(2023)- 對企業 AI 治理意涵的分析
- "OpenAI Data Usage Policies" - OpenAI(2024)- 針對企業客戶更新後的資料保留與訓練資料政策
Samsung ChatGPT 事件與越獄或提示注入等其他 AI 安全事件有何不同?