# frontier-research
標記為「frontier-research」的 44 篇文章
Frontier Research 評估
綜合評估涵蓋adversarial robustness、alignment faking、sleeper agents、emerging research directions in AI 安全。
前沿模型的對抗性強健性
針對前沿語言模型的對抗性強健性研究現況與待解的開放問題。
對齊偽裝偵測
偵測模型是否在訓練時偽裝對齊、實際部署時卻表現出另一套行為的研究技術。
自動化紅隊系統
針對大規模 LLM 漏洞探索的端到端自動化紅隊系統。
憲法式分類器
作為 LLM 應用之外部安全護欄的憲法式分類器研究。
欺騙性對齊理論
欺騙性對齊與表面對齊等進階理論研究。
湧現能力的安全影響
模型湧現能力所帶來的安全影響,包括意外能力與規模相關之風險。
LLM 代理安全基準測試
用於 LLM 代理系統的安全基準測試,包括評估框架與標準化指標。
機制可解釋性與紅隊演練
將機制可解釋性研究應用於紅隊演練,涵蓋電路分析、特徵歸因與內部模型探測。
模型合併安全性
模型合併的安全影響,包括合併模型中潛在的安全後果。
多模態推論攻擊
針對多模態模型的攻擊,包括跨模態注入與感知操弄。
推論模型利用
針對具推論能力模型的攻擊,包括 o1/o3 類模型以及其推論令牌利用。
紅隊演練推論軌跡
對可見推論軌跡模型進行紅隊演練的技術,包括思維注入與軌跡操弄。
表徵工程的安全影響
用於操弄或防禦模型行為之表徵工程技術的安全影響。
獎勵駭入研究
強化學習與 RLHF 系統中獎勵駭入現象的研究。
可擴展監督的挑戰
隨模型能力增強,如何維持人類監督的技術挑戰。
潛伏代理研究
對 LLM 中潛伏代理行為的研究,包括觸發偵測與相應緩解。
合成資料投毒
針對合成資料生成管線的投毒攻擊,以及對下游模型的影響。
工具增強模型的風險
具工具使用能力模型的安全風險,包括工具誤用與工具注入。
針對安全訓練的適應性攻擊
針對最新安全訓練技術的適應性攻擊研究,包括規避與相應對策。
憲法式 AI 的限制
憲法式 AI 方法的限制及其繞過研究。
持續學習安全性
持續學習系統的安全影響,包括災難性遺忘與相關利用。
合作式 AI 的安全性
合作式 AI 系統的安全研究,包括多代理合作失敗案例與相應防禦。
跨語言轉移的安全性
跨語言能力轉移的安全影響,包括跨語言越獄與安全轉移失敗。
湧現性欺騙研究
語言模型湧現性欺騙行為的研究,包括偵測與相應緩解。
可解釋性驅動的攻擊
運用可解釋性研究設計更有效攻擊的研究方向。
長上下文安全研究
針對長上下文模型的新興安全研究,涵蓋注意力機制與利用技術。
模型崩潰的安全影響
模型崩潰的安全影響,包括惡意操弄與遞迴訓練動態。
模型蒸餾中的安全性損失
針對知識蒸餾過程中安全屬性損失的研究。
多模態推論安全性
多模態推論系統的安全研究,包括跨模態漏洞。
神經縮放法則的安全影響
神經縮放法則的安全研究,包括能力預測與安全意涵。
偏好最佳化攻擊
針對 DPO、IPO 與相關偏好最佳化方法的攻擊研究。
安全分類器探測
用於分析並規避安全分類系統的探測方法。
提示詞注入的形式化模型
提示詞注入攻擊的形式化建模與理論框架。
量子 ML 的安全影響
量子機器學習的安全影響,包括後量子考量。
藏拙偵測
偵測模型刻意隱藏能力(藏拙)的方法。
自我改進代理的安全性
自我改進 AI 代理的安全研究,包括能力控制與相應對齊。
稀疏注意力的安全性
稀疏注意力機制的安全影響,包括攻擊向量與相應防禦。
規格遊戲研究
AI 系統中規格遊戲現象的研究,包括偵測與相應緩解。
阿諛奉承利用
針對模型阿諛奉承行為的系統性利用,以及相應防禦。
合成人格攻擊
以合成人格在多代理系統中建立信任並進行利用的攻擊。
測試時計算攻擊
針對測試時計算擴展的攻擊研究,包括反思漏洞。
機器遺忘安全研究
針對機器遺忘方法的攻擊研究與知識移除驗證。
世界模型利用
利用已學世界模型進行對抗性目的的利用與相應防禦。