# frontier
標記為「frontier」的 40 篇文章
Frontier Research 模擬測驗
模擬測驗涵蓋alignment faking、sleeper agents、reasoning model 攻擊、mechanistic interpretability。
Reasoning Model 安全評估
評估 of chain-of-thought 利用、reasoning trace manipulation、thinking-token 攻擊。
技能驗證: Reasoning Model 攻擊
Verification of skills in reasoning trace manipulation、chain-of-thought 利用、thinking-token 攻擊。
對抗性目的之激活操控
運用表徵工程與激活操控,於表徵層級操弄模型行為。
前沿模型的對抗性強健性
針對前沿語言模型的對抗性強健性研究現況與待解的開放問題。
代理式 AI 對齊的挑戰
代理式 AI 系統所引入的對齊挑戰,包括工具使用、長時間範疇、以及目標泛化問題。
AI 代理安全性評估
用於評估 AI 代理系統安全屬性的框架與方法論。
思維鏈利用
利用模型思維鏈推論過程的攻擊,包括思維注入、指令遺忘與推論操弄。
思維鏈忠實性
思維鏈推論是否真正反映模型的內部計算,以及由此帶來的安全影響。
憲法式 AI 繞過技術
用於繞過憲法式 AI 訓練與部署時護欄的技術。
文化對齊落差
不同文化脈絡下 LLM 對齊的差異,以及由此產生的安全與公平性影響。
聯邦學習模型投毒
針對聯邦學習系統的模型投毒攻擊及其相應防禦。
上下文學習利用
利用上下文學習進行提示詞注入、範例投毒與行為操弄的攻擊。
前沿研究
涵蓋推理模型攻擊、程式碼生成安全、電腦使用代理、AI 驅動紅隊演練、機器人與具身 AI,以及對齊造假的尖端 AI 安全研究。
推論時介入攻擊
於推論時對激活進行操弄的攻擊與防禦,包括介入方法研究。
透過人格工程進行越獄
利用人格工程與角色扮演技術進行 LLM 越獄的進階方法。
長上下文安全性
10 萬以上符元的上下文視窗所帶來的安全影響,包括注意力稀釋、指令遺忘與利用。
專家混合 (MoE) 利用
針對專家混合架構的攻擊,包括專家路由操弄與負載不平衡利用。
模型崩潰利用
利用迭代式合成訓練下模型崩潰現象的攻擊。
模型蒸餾的安全風險
知識蒸餾的安全風險,包括能力轉移、安全屬性損失以及未意圖的行為繼承。
模型合併的攻擊面
透過 TIES、DARE 與 SLERP 等模型合併技術注入惡意能力或規避安全訓練的安全分析。
多代理欺騙研究
多代理系統中欺騙性行為的研究,包括代理間的操弄與社會工程。
多代理湧現的安全影響
多代理系統中湧現行為所帶來的安全風險,包括意外合作與欺騙。
多模態推論安全性
跨文字、影像、音訊與視訊模態進行推論之模型的安全挑戰。
神經縮放法則的安全影響
神經縮放法則的安全意涵,包括隨規模增長而出現的能力以及相關安全屬性。
部署後的安全性劣化
已部署模型在一段時間後出現的安全性劣化研究,包括原因分析與緩解策略。
偏好學習攻擊
針對 RLHF 與 DPO 等偏好學習系統的攻擊,包括偏好投毒與獎勵駭入。
提示詞最佳化的安全影響
自動化提示詞最佳化的安全影響,包括對抗性提示微調與相應防禦。
提示詞強健性認證
對抗性輸入下提示詞強健性的形式化認證方法。
進階獎勵模型利用
系統性地利用獎勵模型的方法,包括過度最佳化、規格遊戲與 Goodhart 定律效應。
基於 RL 的越獄最佳化
利用強化學習最佳化越獄攻擊,包括梯度式與黑箱式 RL 方法。
安全稅研究
安全稅現象的研究,即安全訓練為何以及如何降低模型在無害任務上的能力。
自對弈式紅隊演練
用於 LLM 的自對弈式紅隊演練方法,包含自動生成與精煉攻擊。
稀疏自編碼器於安全分析
運用稀疏自編碼器與機制可解釋性辨識並操弄安全相關特徵。
推測式解碼的安全性
推測式解碼最佳化的安全影響,包括草稿模型攻擊與驗證漏洞。
測試時計算攻擊
利用測試時計算擴展的攻擊,包括反思攻擊與計算耗盡。
思考令牌攻擊
利用模型思考令牌的攻擊,包括令牌注入與操弄。
通用對抗性觸發語
跨模型通用的對抗性觸發語研究,包括 GCG 及相關梯度式技術。
遺忘攻擊與防禦
針對機器遺忘方法的攻擊與防禦,包括重新學習與萃取攻擊。
浮水印移除技術
LLM 浮水印方案的移除與規避技術。