合成資料風險
以合成資料訓練造成的模型崩壞、跨世代品質退化、分佈窄化、少數族群知識抹除,以及 LLM 訓練中安全使用合成資料的策略。
AI 產業正在耗盡高品質、由人類產生的訓練資料。對此的反應是用其他模型產生的資料——合成資料——來訓練模型。這種做法短期可行,但帶有會隨時間累積的系統性風險。當模型被以「由以合成資料訓練出的模型所產出的合成資料」訓練時,品質會下降、分佈會窄化、稀有知識會消失。這就是模型崩壞(model collapse),而它正在發生。
合成資料回饋迴圈
Generation 0: Model trained on human data
↓ generates synthetic data
Generation 1: Model trained on Gen 0's synthetic data
↓ generates synthetic data
Generation 2: Model trained on Gen 1's synthetic data
↓ ...
Generation N: Significant quality degradation每個世代都會帶來兩種疊加效應:
-
統計估計誤差:合成資料是從模型學到的分佈中抽樣得到的,並非真實資料分佈。每一世代都會累積這種抽樣誤差。
-
模式(mode)強化:模型最有把握的輸出(分佈峰值)在合成資料中被過度代表,低機率輸出(分佈尾端)則被代表不足。每一代都放大這個偏誤。
量測崩壞
對每個世代的輸出,可以抓取約 10,000 筆文字,將其分詞後統計以下指標:
- Type-Token Ratio (TTR):
unique_tokens / total_tokens,崩壞時下降。 - 熵(entropy):以符元機率計算
-Σ p * log2(p),崩壞時下降。 - 罕見詞比例(hapax legomena ratio):只出現一次的詞佔不重複詞比例;罕見詞是最先消失的。
- 輸出長度變異數:隨著輸出同質化而下降。
- 平均輸出長度。
跨世代比較這些數字就能觀察到分佈收斂現象。
品質退化的階段
研究已辨識出崩壞過程的若干明確階段:
階段 1:早期消瘦(第 1–2 代)
最稀有的知識開始消失。冷門事實、不尋常的表達、少數族群觀點在合成資料中代表不足,開始流失。整體品質看起來沒變。
偵測訊號:長尾知識基準表現下降、詞彙多樣性減少、非主流措辭減少。
階段 2:同質化(第 3–5 代)
輸出愈來愈通用、公式化。模型的「嗓音」變得扁平。風格、觀點、內容的多樣性顯著下降。
偵測訊號:輸出變異數減少、常見片語重複增加、困惑度(perplexity)下降(模型變得更可預測)。
階段 3:知識流失(第 5–10 代)
事實性知識開始退化。模型「遺忘」原本在人類訓練資料中存在、但在合成世代中代表不足的資訊。
偵測訊號:事實問答錯誤率上升、幻覺率上升、模型給出有自信但錯誤的答案。
階段 4:功能崩壞(第 10 代以上)
模型輸出收斂到一個狹窄分佈。對於差異很大的輸入也產生幾乎相同的輸出。對大多數任務,模型已實質失能。
偵測訊號:輸出熵極低、不同提示詞間的輸出相似度很高、多項基準出現災難性下降。
少數族群抹除
合成資料崩壞最令人憂慮的效應之一,就是系統性抹除少數族群觀點與稀有知識。
為何少數族群最先被抹除
語言模型依訓練資料中的頻率比例生成文字。少數觀點、稀有語言、罕見文化知識出現頻率較低,在生成合成資料時便被抽樣不足;每一代都使此抽樣不足加劇,直到該知識消失。
實作量測時,把少數主題與主流主題分別跑 "Tell me about {topic}." 的提示詞,對每個回答評分,再比較兩者平均分數、計算 gap 並統計完全答錯(得零分)的少數主題數量,跨世代觀察趨勢。
範例:語言覆蓋退化
| 世代 | 英文品質 | 西班牙文品質 | 史瓦希利文品質 | 泰盧固文品質 |
|---|---|---|---|---|
| Gen 0(人類資料) | 95% | 88% | 65% | 58% |
| Gen 1 | 94% | 85% | 52% | 41% |
| Gen 2 | 93% | 80% | 35% | 22% |
| Gen 3 | 92% | 74% | 18% | 8% |
| Gen 5 | 90% | 62% | 5% | 1% |
低資源語言最先被抹除,因為它們對合成資料分佈的貢獻最少。
生產管道中的風險
風險 1:未追蹤的資料來源
組織可能根本不知道其訓練資料中是否含有合成內容。網路爬取的資料裡 AI 生成文字愈來愈多。若沒有來源追蹤,合成污染便是看不見的。
估計污染比例的做法:從資料集隨機抽樣約 10,000 筆,對每筆跑一個合成內容分類器;將分類信心 > 0.8 且判為 synthetic 的計為污染、< 0.6 的計為不確定,再計算比例,若污染比例超過 30% 則標記為高風險。
風險 2:自食其果的訓練迴圈
當模型輸出被公開發佈(如 AI 生成文章、社群貼文、程式碼),這些內容會進入網路爬取,並可能被納入未來訓練資料。模型無意間就以自己的輸出訓練了自己。
風險 3:基準污染
合成資料產生器可能產出與評估基準重疊的內容,使模型表現數字被灌水,同時實際能力正在退化。
風險 4:合成 RLHF 資料
將合成偏好資料用於 RLHF 會讓問題更嚴重:不只基礎訓練資料是合成的,對齊訊號也由模型生成,導致獎勵駭入(reward hacking)在合成偏好上發生,而這些偏好不一定反映真正的人類價值。
緩解策略
資料層級緩解
-
合成資料偵測與標記:把訓練資料分類為人類或合成,並在整個管道追蹤來源。
-
混合比例:維持一定比例已驗證的人類資料。研究建議合成資料佔總訓練資料低於 50%,以避免明顯的崩壞效應。
-
品質過濾:對合成資料套用嚴格的品質過濾器,移除通用、重複或缺乏事實依據的輸出。
-
多樣性感知抽樣:生成合成資料時,對稀有主題、少數觀點與代表不足領域的提示詞進行過抽樣(oversample)。
架構層級緩解
-
整合式生成(Ensemble generation):使用多個不同模型產生合成資料。結合不同架構與訓練資料的模型,可降低模式強化效應。
-
人機迴圈策展:在合成資料進入訓練管道前由人類標註者審查與過濾。成本高但有效。
-
持續監控:追蹤不同訓練 checkpoint 的分佈指標(熵、TTR、少數主題覆蓋率),對退化趨勢設定警示。
組織層級緩解
| 做法 | 實作方式 | 效益 |
|---|---|---|
| 資料來源追蹤 | 標註所有資料的來源、產生方式與血緣 | 避免不知情的合成污染 |
| 世代追蹤 | 追蹤資料曾經過模型幾次 | 可評估崩壞風險 |
| 定期稽核 | 以尾端知識基準比較模型能力 | 早期發現退化 |
| 多元資料來源 | 投資於代表不足領域的人類產生資料 | 對抗少數族群抹除 |
合成資料風險的紅隊評估
評估資料來源
判斷目標模型的訓練資料是否包含合成內容、來源是否有追蹤。詢問有多少比例訓練資料為 AI 生成。
測試尾端知識
在稀有、冷門與少數領域知識上評估模型。與確知僅以人類資料訓練的模型比較;顯著落差意味著可能的崩壞效應。
量測輸出多樣性
對多樣提示詞生成大量樣本,計算熵、TTR 與輸出變異數。相對可比模型多樣性偏低,可能代表合成資料同質化。
測試少數族群抹除
評估模型對代表不足語言、文化與領域的知識。與基礎模型(在可能的合成資料訓練前)的既有能力比較。
記錄與報告
將發現視為資料品質風險而非傳統漏洞加以報告。附上關於來源追蹤、混合比例調整與多樣性監控的建議。
總結
合成資料是現代 LLM 訓練不可或缺的一部分,但帶有跨世代累積的系統性風險。模型崩壞、少數族群抹除與品質退化都是漸進過程,標準評估難以偵測。有效緩解需要來源追蹤、混合比例管理、多樣性感知抽樣與持續監控。過度仰賴合成資料而缺乏這些防護的組織,將面臨漸進式能力退化,且通常要等到嚴重損害已經發生才會被發現。