# internals

標記為「internals」的 5 篇文章

大型語言模型內部結構

為利用開發深入探索大型語言模型內部機制的技術，涵蓋激活分析、對齊繞過原語與嵌入空間利用。

從攻擊性安全視角看 Transformer 架構、分詞器內部機制、logit 管線與信任邊界。

Probe model internal representations to discover exploitable features與latent vulnerability patterns.

攻擊 LLM 嵌入層的技術，包括對抗性擾動、嵌入反演與語意空間操縱。

從安全研究員視角出發的大型語言模型架構概覽，涵蓋建立可利用攻擊面的關鍵元件。