# frontier

標記為「frontier」的 40 篇文章

Frontier Research 模擬測驗

模擬測驗涵蓋alignment faking、sleeper agents、reasoning model 攻擊、mechanistic interpretability。

practice-examfrontierresearch

專家

Reasoning Model 安全評估

評估 of chain-of-thought 利用、reasoning trace manipulation、thinking-token 攻擊。

assessmentreasoningfrontier

進階

技能驗證: Reasoning Model 攻擊

Verification of skills in reasoning trace manipulation、chain-of-thought 利用、thinking-token 攻擊。

skill-verificationreasoningfrontier

進階

對抗性目的之激活操控

運用表徵工程與激活操控，於表徵層級操弄模型行為。

frontieractivation-steeringrepresentation

專家

前沿模型的對抗性強健性

針對前沿語言模型的對抗性強健性研究現況與待解的開放問題。

frontier-researchadversarial-robustnessfrontierattacks

專家

代理式 AI 對齊的挑戰

代理式 AI 系統所引入的對齊挑戰,包括工具使用、長時間範疇、以及目標泛化問題。

frontieragenticalignment

進階

AI 代理安全性評估

用於評估 AI 代理系統安全屬性的框架與方法論。

frontieragent-safetybenchmarks

中級

思維鏈利用

利用模型思維鏈推論過程的攻擊,包括思維注入、指令遺忘與推論操弄。

frontierchain-of-thoughtreasoning

進階

思維鏈忠實性

思維鏈推論是否真正反映模型的內部計算,以及由此帶來的安全影響。

chainfaithfulnessthoughtresearchfrontier

專家

憲法式 AI 繞過技術

用於繞過憲法式 AI 訓練與部署時護欄的技術。

frontierconstitutional-aibypass

進階

文化對齊落差

不同文化脈絡下 LLM 對齊的差異,以及由此產生的安全與公平性影響。

culturalalignmentresearchgapsfrontier

進階

聯邦學習模型投毒

針對聯邦學習系統的模型投毒攻擊及其相應防禦。

frontierfederated-learningpoisoning

專家

上下文學習利用

利用上下文學習進行提示詞注入、範例投毒與行為操弄的攻擊。

frontierin-context-learningfew-shot

中級

前沿研究

涵蓋推理模型攻擊、程式碼生成安全、電腦使用代理、AI 驅動紅隊演練、機器人與具身 AI，以及對齊造假的尖端 AI 安全研究。

frontierresearchreasoningcode-modelscomputer-usealignment-fakingembodied-ai

入門

推論時介入攻擊

於推論時對激活進行操弄的攻擊與防禦,包括介入方法研究。

frontierinference-timeintervention

專家

透過人格工程進行越獄

利用人格工程與角色扮演技術進行 LLM 越獄的進階方法。

viajailbreakresearchpersonaengineeringfrontier

進階

長上下文安全性

10 萬以上符元的上下文視窗所帶來的安全影響,包括注意力稀釋、指令遺忘與利用。

frontierlong-contextattention

進階

專家混合 (MoE) 利用

針對專家混合架構的攻擊,包括專家路由操弄與負載不平衡利用。

frontiermoerouting

專家

模型崩潰利用

利用迭代式合成訓練下模型崩潰現象的攻擊。

exploitationcollapseresearchmodelfrontier

專家

模型蒸餾的安全風險

知識蒸餾的安全風險,包括能力轉移、安全屬性損失以及未意圖的行為繼承。

frontierdistillationmodel-theft

進階

模型合併的攻擊面

透過 TIES、DARE 與 SLERP 等模型合併技術注入惡意能力或規避安全訓練的安全分析。

frontiermodel-mergingattack-surface

專家

多代理欺騙研究

多代理系統中欺騙性行為的研究,包括代理間的操弄與社會工程。

researchdeceptionagentmultifrontier

專家

多代理湧現的安全影響

多代理系統中湧現行為所帶來的安全風險,包括意外合作與欺騙。

frontiermulti-agentemergence

進階

多模態推論安全性

跨文字、影像、音訊與視訊模態進行推論之模型的安全挑戰。

frontiermultimodalreasoning

進階

神經縮放法則的安全影響

神經縮放法則的安全意涵,包括隨規模增長而出現的能力以及相關安全屬性。

frontierscaling-lawsemergence

進階

部署後的安全性劣化

已部署模型在一段時間後出現的安全性劣化研究,包括原因分析與緩解策略。

deploymentsafetypostresearchdegradationfrontier

進階

偏好學習攻擊

針對 RLHF 與 DPO 等偏好學習系統的攻擊,包括偏好投毒與獎勵駭入。

frontierpreference-learningrlhf

進階

提示詞最佳化的安全影響

自動化提示詞最佳化的安全影響,包括對抗性提示微調與相應防禦。

frontierprompt-optimizationautomated

進階

提示詞強健性認證

對抗性輸入下提示詞強健性的形式化認證方法。

certificationrobustnesspromptresearchfrontier

進階

進階獎勵模型利用

系統性地利用獎勵模型的方法,包括過度最佳化、規格遊戲與 Goodhart 定律效應。

frontierreward-modeloptimization

進階

基於 RL 的越獄最佳化

利用強化學習最佳化越獄攻擊,包括梯度式與黑箱式 RL 方法。

basedoptimizationresearchfrontierjailbreak

專家

安全稅研究

安全稅現象的研究,即安全訓練為何以及如何降低模型在無害任務上的能力。

safetytaxfrontierresearch

進階

自對弈式紅隊演練

用於 LLM 的自對弈式紅隊演練方法,包含自動生成與精煉攻擊。

frontierself-playautomated

進階

稀疏自編碼器於安全分析

運用稀疏自編碼器與機制可解釋性辨識並操弄安全相關特徵。

frontiersaeinterpretability

專家

推測式解碼的安全性

推測式解碼最佳化的安全影響,包括草稿模型攻擊與驗證漏洞。

frontierspeculative-decodinginference

專家

測試時計算攻擊

利用測試時計算擴展的攻擊,包括反思攻擊與計算耗盡。

frontiertest-time-computedos

進階

思考令牌攻擊

利用模型思考令牌的攻擊,包括令牌注入與操弄。

frontierthinking-tokensreasoning

進階

通用對抗性觸發語

跨模型通用的對抗性觸發語研究,包括 GCG 及相關梯度式技術。

universaladversarialtriggersresearchfrontier

專家

遺忘攻擊與防禦

針對機器遺忘方法的攻擊與防禦,包括重新學習與萃取攻擊。

frontierunlearningprivacy

進階

浮水印移除技術

LLM 浮水印方案的移除與規避技術。

frontierwatermarkingremoval

進階