合成資料風險

中級2 分鐘閱讀更新於 2026-03-15

以合成資料訓練造成的模型崩壞、跨世代品質退化、分佈窄化、少數族群知識抹除,以及 LLM 訓練中安全使用合成資料的策略。

synthetic-data model-collapse quality-degradation distribution training

AI 產業正在耗盡高品質、由人類產生的訓練資料。對此的反應是用其他模型產生的資料——合成資料——來訓練模型。這種做法短期可行,但帶有會隨時間累積的系統性風險。當模型被以「由以合成資料訓練出的模型所產出的合成資料」訓練時,品質會下降、分佈會窄化、稀有知識會消失。這就是模型崩壞(model collapse),而它正在發生。

合成資料回饋迴圈

Generation 0: Model trained on human data
    ↓ generates synthetic data
Generation 1: Model trained on Gen 0's synthetic data
    ↓ generates synthetic data
Generation 2: Model trained on Gen 1's synthetic data
    ↓ ...
Generation N: Significant quality degradation

每個世代都會帶來兩種疊加效應:

統計估計誤差:合成資料是從模型學到的分佈中抽樣得到的,並非真實資料分佈。每一世代都會累積這種抽樣誤差。
模式(mode)強化:模型最有把握的輸出(分佈峰值)在合成資料中被過度代表,低機率輸出(分佈尾端)則被代表不足。每一代都放大這個偏誤。

量測崩壞

對每個世代的輸出,可以抓取約 10,000 筆文字,將其分詞後統計以下指標:

Type-Token Ratio (TTR):unique_tokens / total_tokens,崩壞時下降。
熵(entropy):以符元機率計算 -Σ p * log2(p),崩壞時下降。
罕見詞比例(hapax legomena ratio):只出現一次的詞佔不重複詞比例;罕見詞是最先消失的。
輸出長度變異數:隨著輸出同質化而下降。
平均輸出長度。

跨世代比較這些數字就能觀察到分佈收斂現象。

品質退化的階段

研究已辨識出崩壞過程的若干明確階段:

階段 1:早期消瘦(第 1–2 代)

最稀有的知識開始消失。冷門事實、不尋常的表達、少數族群觀點在合成資料中代表不足,開始流失。整體品質看起來沒變。

偵測訊號:長尾知識基準表現下降、詞彙多樣性減少、非主流措辭減少。

階段 2:同質化(第 3–5 代)

輸出愈來愈通用、公式化。模型的「嗓音」變得扁平。風格、觀點、內容的多樣性顯著下降。

偵測訊號:輸出變異數減少、常見片語重複增加、困惑度(perplexity)下降(模型變得更可預測)。

階段 3:知識流失(第 5–10 代)

事實性知識開始退化。模型「遺忘」原本在人類訓練資料中存在、但在合成世代中代表不足的資訊。

偵測訊號:事實問答錯誤率上升、幻覺率上升、模型給出有自信但錯誤的答案。

階段 4:功能崩壞(第 10 代以上)

模型輸出收斂到一個狹窄分佈。對於差異很大的輸入也產生幾乎相同的輸出。對大多數任務,模型已實質失能。

偵測訊號:輸出熵極低、不同提示詞間的輸出相似度很高、多項基準出現災難性下降。

少數族群抹除

合成資料崩壞最令人憂慮的效應之一,就是系統性抹除少數族群觀點與稀有知識。

為何少數族群最先被抹除

語言模型依訓練資料中的頻率比例生成文字。少數觀點、稀有語言、罕見文化知識出現頻率較低,在生成合成資料時便被抽樣不足;每一代都使此抽樣不足加劇,直到該知識消失。

實作量測時,把少數主題與主流主題分別跑 "Tell me about {topic}." 的提示詞,對每個回答評分,再比較兩者平均分數、計算 gap 並統計完全答錯(得零分)的少數主題數量,跨世代觀察趨勢。

範例:語言覆蓋退化

世代	英文品質	西班牙文品質	史瓦希利文品質	泰盧固文品質
Gen 0(人類資料)	95%	88%	65%	58%
Gen 1	94%	85%	52%	41%
Gen 2	93%	80%	35%	22%
Gen 3	92%	74%	18%	8%
Gen 5	90%	62%	5%	1%

低資源語言最先被抹除,因為它們對合成資料分佈的貢獻最少。

生產管道中的風險

風險 1:未追蹤的資料來源

組織可能根本不知道其訓練資料中是否含有合成內容。網路爬取的資料裡 AI 生成文字愈來愈多。若沒有來源追蹤,合成污染便是看不見的。

估計污染比例的做法:從資料集隨機抽樣約 10,000 筆,對每筆跑一個合成內容分類器;將分類信心 > 0.8 且判為 synthetic 的計為污染、< 0.6 的計為不確定,再計算比例,若污染比例超過 30% 則標記為高風險。

風險 2:自食其果的訓練迴圈

當模型輸出被公開發佈(如 AI 生成文章、社群貼文、程式碼),這些內容會進入網路爬取,並可能被納入未來訓練資料。模型無意間就以自己的輸出訓練了自己。

風險 3:基準污染

合成資料產生器可能產出與評估基準重疊的內容,使模型表現數字被灌水,同時實際能力正在退化。

風險 4:合成 RLHF 資料

將合成偏好資料用於 RLHF 會讓問題更嚴重:不只基礎訓練資料是合成的,對齊訊號也由模型生成,導致獎勵駭入(reward hacking)在合成偏好上發生,而這些偏好不一定反映真正的人類價值。

緩解策略

資料層級緩解

合成資料偵測與標記:把訓練資料分類為人類或合成,並在整個管道追蹤來源。
混合比例:維持一定比例已驗證的人類資料。研究建議合成資料佔總訓練資料低於 50%,以避免明顯的崩壞效應。
品質過濾:對合成資料套用嚴格的品質過濾器,移除通用、重複或缺乏事實依據的輸出。
多樣性感知抽樣:生成合成資料時,對稀有主題、少數觀點與代表不足領域的提示詞進行過抽樣(oversample)。

架構層級緩解

整合式生成(Ensemble generation):使用多個不同模型產生合成資料。結合不同架構與訓練資料的模型,可降低模式強化效應。
人機迴圈策展:在合成資料進入訓練管道前由人類標註者審查與過濾。成本高但有效。
持續監控:追蹤不同訓練 checkpoint 的分佈指標(熵、TTR、少數主題覆蓋率),對退化趨勢設定警示。

組織層級緩解

做法	實作方式	效益
資料來源追蹤	標註所有資料的來源、產生方式與血緣	避免不知情的合成污染
世代追蹤	追蹤資料曾經過模型幾次	可評估崩壞風險
定期稽核	以尾端知識基準比較模型能力	早期發現退化
多元資料來源	投資於代表不足領域的人類產生資料	對抗少數族群抹除