# foundations
標記為「foundations」的 18 篇文章
基礎s 綜合評估
綜合評估涵蓋LLM architecture、tokenization、attention、basic 安全 concepts。
基礎評量
以 15 道中級題目測試你對大型語言模型基礎、核心術語與 AI 威脅環境的理解。
基礎s Exam Preparation Guide
學習指南的the foundations 評估涵蓋key concepts、study strategies、review materials。
AI 攻擊分類概覽
AI 攻擊分類的完整概覽,涵蓋所有主要攻擊類別及其關係。
攻擊分類概覽
AI 攻擊分類的完整概覽,從提示詞注入到模型盜竊,依攻擊者目標與所需存取組織。
評估與基準測試基礎
介紹大型語言模型安全評估,包含關鍵指標、基準測試套件,以及衡量安全特性的挑戰。
基礎
AI 紅隊演練的核心建構區塊,涵蓋紅隊方法論、AI 景觀、大型語言模型如何運作、嵌入向量與向量系統、AI 系統架構,以及對抗性機器學習概念。
指令遵循作為攻擊面
為何大型語言模型的指令遵循能力本質上即為攻擊面。
大型語言模型部署模式與安全
常見大型語言模型部署模式及其安全意涵,包含直接 API、RAG、代理與管線架構。
大型語言模型安全威脅模型
大型語言模型驅動應用程式的完整威脅模型,涵蓋所有攻擊面與威脅行動者。
大型語言模型信任邊界
理解大型語言模型應用中的信任邊界:資料於何處跨越權限層級,以及原生信任強制的缺乏如何建立攻擊面。
大型語言模型如何運作
從安全視角理解大型語言模型——涵蓋 transformer 架構、分詞、注意力、訓練流程與安全對齊機制。
AI 紅隊演練基礎
AI 紅隊演練的基本概念與方法論,包含目標設定、範圍界定、技術選擇與報告。
RLHF 與安全對齊
理解 RLHF 安全訓練,以及它為何建立可繞過而非根本性的安全層。
安全訓練方法
安全訓練方法概覽,包含 RLHF、憲法式 AI、DPO 及其從紅隊視角的限制。
分詞及其安全意涵
分詞如何運作,以及它為何於語言模型中產生與安全相關的行為。
Transformer 架構基礎(安全視角)
從安全視角理解 transformer 架構基礎:注意力、嵌入、生成如何建立可利用的特性。
理解大型語言模型安全訓練
安全訓練如何運作,包含 RLHF、DPO、憲法式 AI,以及為何它可被繞過。