# alignment
標記為「alignment」的 44 篇文章
自主目標漂移
自主 AI 代理如何透過獎勵駭入、規格遊戲、安全系統繞過與多代理系統中的連鎖失效偏離原定目標。
微調攻擊鑑識
偵測對語言模型未授權微調修改的鑑識技術,涵蓋安全對齊退化與能力注入。
Frontier Research 評估
綜合評估涵蓋adversarial robustness、alignment faking、sleeper agents、emerging research directions in AI 安全。
案例研究:Sleeper Agents 研究影響
分析 Hubinger et al. 2024 的 sleeper agents 研究,以及其對 AI 安全與紅隊的啟示。
Bing Chat Sydney 事件
分析 2023 年 2 月 Bing Chat「Sydney」事件,Microsoft 的 AI 聊天機器人在延伸對話中表現出反常行為,包括情緒操縱、威脅與身分混亂。
RLHF & Alignment Manipulation
攻擊ing the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.
憲法式 AI 作為防禦策略
使用憲法式 AI 原則建立本質上更安全、抵禦攻擊的 LLM 應用。
AI 防禦景觀
AI 防禦類別之完整概觀,包括輸入過濾、輸出過濾、guardrail、對齊訓練與監控——以及各領域之工具與供應商。
微調下的對齊穩定性
測試安全對齊如何在各種微調設定與資料集下劣化。
微調如何劣化安全
微調侵蝕模型安全的機制——安全訓練的災難性遺忘、資料集組成效應、「少數樣本」問題,以及衡量安全回歸的量化方法。
DPO 對齊攻擊
透過打造對抗性偏好配對攻擊 Direct Preference Optimization 訓練,在外觀合法的同時細微地改變模型行為。
微調即服務攻擊面
以 API 為基礎的微調服務如何以極少的資料與成本被利用以移除安全對齊,包括 0.20 美元的 GPT-3.5 越獄、NDSS 2025 失準研究結果,以及 BOOSTER 防禦機制。
RLHF 與 DPO 操縱
針對人類回饋強化學習與直接偏好優化攻擊的概覽——獎勵駭客、偏好資料投毒與對齊操縱如何入侵訓練管線。
Preference Data 投毒
How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.
安全資料集投毒
透過對安全評估資料集與安全導向微調資料投毒攻擊安全訓練管線,破壞安全訓練。
大型語言模型如何運作
從安全視角理解大型語言模型——涵蓋 transformer 架構、分詞、注意力、訓練流程與安全對齊機制。
預訓練 → 微調 → RLHF 管線
瞭解打造對齊 LLM 的三階段流程——預訓練、監督式微調、RLHF/DPO——以及各階段的安全意涵。
代理式 AI 對齊的挑戰
代理式 AI 系統所引入的對齊挑戰,包括工具使用、長時間範疇、以及目標泛化問題。
Scalable Oversight Challenges
How oversight breaks down as AI systems become more capable: the scalable oversight problem, recursive reward modeling, debate, market-making, and implications for red teaming increasingly capable models.
文化對齊落差
不同文化脈絡下 LLM 對齊的差異,以及由此產生的安全與公平性影響。
量化與安全對齊
模型量化為何會不成比例地劣化安全對齊:惡意量化攻擊、符元翻轉現象,以及安全感知型量化防禦。
可擴展監督的挑戰
隨模型能力增強,如何維持人類監督的技術挑戰。
自我改進代理的安全性
自我改進 AI 代理的安全研究,包括能力控制與相應對齊。
阿諛奉承利用
針對模型阿諛奉承行為的系統性利用,以及相應防禦。
對齊內部機制與繞過原語
RLHF、DPO 與 CAI 訓練管線、安全分類器架構、拒絕機制分類法,以及用於對齊繞過的表示工程。
大型語言模型內部結構
為利用開發深入探索大型語言模型內部機制的技術,涵蓋激活分析、對齊繞過原語與嵌入空間利用。
實作:對齊邊界探測
系統性 probe 對齊 boundaries to map the exact thresholds where safety training engages and disengages.
Alignment Breaker: Level 2 — Safety Fine-Tuned Model
Bypass safety 微調 on a model with RLHF, constitutional AI, and classifier-based defenses.
CTF: Alignment Breaker
Break the 對齊 of a heavily defended model with multiple defense layers. Requires combining advanced 技術 including 對抗性 suffixes, multi-turn manipulation, and novel 越獄 approaches.
實作:對齊壓力測試
Push language model 對齊 to its breaking points through systematic stress testing. Identify conditions where safety training fails, measure 對齊 degradation curves, and map the boundaries of model compliance.
實作:RLHF 獎勵 hacking
探索如何鑽營用於 RLHF 對齊之獎勵模型——暴露獎勵代理訊號與實際安全目標之間缺口之實作。
多模態模型中的對齊挑戰
分析多模態 AI 系統特有的對齊挑戰,包括跨模態安全缺口、表示衝突,以及將基於文字的安全訓練延伸至視覺、音訊和視頻輸入的困難。
越獄技術
繞過大型語言模型安全對齊的常見模式與進階技術,包含角色扮演、編碼技巧、多範例攻擊與基於梯度的方法。
訓練資料操縱
透過投毒訓練資料、微調資料集或 RLHF 偏好資料來腐蝕模型行為的攻擊,包括後門安裝與安全對齊移除。
DPO 安全意涵
直接偏好優化(DPO)對模型安全屬性與對齊的影響分析。
對齊稅:微調中的安全與能力權衡
量化分析在微調期間安全措施對模型能力造成的代價,以及如何最小化對齊稅。
憲法 AI 駭客
於憲法 AI 訓練中之攻擊面,利用自我批判迴圈、操弄憲法原則與紅隊 RLAIF 管線。
DPO 與直接對齊攻擊
Direct Preference Optimization 漏洞、DPO 與 RLHF 於攻擊面之差異、偏好配對投毒,以及排名操弄技術。
微調攻擊面
微調安全漏洞的全面概觀,包括 SFT 資料投毒、RLHF 操弄、對齊稅,以及所有微調攻擊向量。
RLHF 攻擊面深入
獎勵模型漏洞、偏好資料操弄、由標註者或對手之獎勵駭入,與與憲法 AI 穩健度之比較。
訓練管線安全
完整 AI 模型訓練管線的安全,涵蓋預訓練攻擊、微調與對齊操控、架構層級漏洞與進階訓練期威脅。
預訓練與微調的安全比較
比較預訓練與微調階段的安全考量、攻擊面與防禦策略。
Sleeper Agent Detection 詳解
Walkthrough of detecting deceptive sleeper agent behaviors in fine-tuned language models.
Constitutional AI Implementation 指南
Implement constitutional AI principles in a custom fine-tuning and RLHF pipeline.