大型語言模型如何運作
從安全視角理解大型語言模型——涵蓋 transformer 架構、分詞、注意力、訓練流程與安全對齊機制。
理解大型語言模型如何運作是有效 AI 紅隊演練的基礎。你不需要能從零建構模型——但你需要理解 transformer 架構的核心元件、訓練流程如何塑造行為,以及安全對齊的機制與限制。
Transformer 架構
大型語言模型基於 transformer 架構。核心元件:分詞器 將文字切分為符元、嵌入層 將符元對應至向量、注意力層 決定符元間的資訊流動、前饋層 儲存學到的關聯、輸出層 產生下一個符元的機率。
訓練流程
預訓練:在大量文字上學習語言模式。監督式微調(SFT):學習遵循指令。安全對齊:學習拒絕有害請求。
安全對齊方法
RLHF:從人類回饋學習偏好安全回應。Constitutional AI:使用原則集自我批評與修訂。DPO:直接最佳化偏好而不需要獎勵模型。
對紅隊員的意涵
安全對齊是學到的行為而非架構限制。它可被繞過因為它在與所有其他學到的行為相同的權重空間中運作。理解這一點是理解為何越獄有效的基礎。