# internals
標記為「internals」的 5 篇文章
大型語言模型內部結構
為利用開發深入探索大型語言模型內部機制的技術,涵蓋激活分析、對齊繞過原語與嵌入空間利用。
internalsactivationsalignmentembeddingsmechanistic-interpretabilityexploit-development
給漏洞利用開發者的 LLM 內部機制
從攻擊性安全視角看 Transformer 架構、分詞器內部機制、logit 管線與信任邊界。
transformerstokenizersinternalsexploit-primitivescontext-window
Representation Probing for Vulnerability Discovery
Probe model internal representations to discover exploitable features與latent vulnerability patterns.
labsrepresentation-probinginternalsadvanced
嵌入空間攻擊
攻擊 LLM 嵌入層的技術,包括對抗性擾動、嵌入反演與語意空間操縱。
embeddingsadversarialvector-spaceinternalsexploit-primitives
大型語言模型內部與利用原語
從安全研究員視角出發的大型語言模型架構概覽,涵蓋建立可利用攻擊面的關鍵元件。
llmtransformersinternalsexploit-primitivesarchitecture