# capabilities
標記為「capabilities」的 6 篇文章
縮放定律、湧現與能力躍升
縮放定律如何預測模型效能、湧現能力為何造成不可預期的安全特性,以及沉睡能力與湧現式對齊失誤對紅隊的意涵。
scalingemergencecapabilitiesadvanced
湧現能力的安全影響
模型湧現能力所帶來的安全影響,包括意外能力與規模相關之風險。
frontier-researchemergentcapabilitiessecurity
工具增強模型的風險
具工具使用能力模型的安全風險,包括工具誤用與工具注入。
frontier-researchtool-augmentedriskscapabilities
LLM API 列舉
列舉 LLM API 能力、限制、隱藏參數與未記錄功能的進階技術,以建立完整攻擊面圖。
llmapienumerationreconnaissancecapabilitiesrestrictions
對齊稅:微調中的安全與能力權衡
量化分析在微調期間安全措施對模型能力造成的代價,以及如何最小化對齊稅。
alignmentsafety-trainingcapabilitiestradeoffsalignment-tax
能力式存取控制
為 LLM 功能實作細粒度能力控管的逐步演練,涵蓋能力符記設計、權限範圍、動態能力授予與稽核軌跡。
access-controlcapabilitiespermissionsauthorizationdefensewalkthrough