# model-deep-dives
標記為「model-deep-dives」的 8 篇文章
Claude 架構安全性
Anthropic 的 Claude 架構、其訓練方法及所衍生安全特性的深入探討。
model-deep-divesclaudeanthropicsecurity
DeepSeek R1 安全性分析
DeepSeek R1 推理模型的安全性分析及其對紅隊的影響。
model-deep-divesdeepseekr1reasoning
Gemini 架構安全性
Google Gemini 多模態架構的安全性分析及其攻擊面。
model-deep-divesgeminigooglesecurity
GPT-4 架構安全性
GPT-4 架構、訓練與安全特性的安全性觀點。
model-deep-divesgpt-4openaisecurity
Llama 架構安全性
Meta 的 Llama 模型家族在開放權重場景中的安全性特性。
model-deep-divesllamametaopen-weight
Mixtral MoE 的利用
Mixtral 與其他專家混合 (MoE) 模型特有的攻擊面與安全考量。
model-deep-divesmixtralmoerouting
分詞器漏洞
分詞器中可被利用於 LLM 攻擊的具體漏洞。
model-deep-divestokenizervulnerabilitiescross-model
Transformer 注意力機制攻擊
針對 Transformer 注意力機制的攻擊,包括注意力偏置與長上下文利用。
model-deep-divestransformerattentionattacks