# scaling
標記為「scaling」的 7 篇文章
縮放定律、湧現與能力躍升
縮放定律如何預測模型效能、湧現能力為何造成不可預期的安全特性,以及沉睡能力與湧現式對齊失誤對紅隊的意涵。
scalingemergencecapabilitiesadvanced
注入的縮放法則
研究注入有效性如何隨模型大小、訓練算力與安全訓練投入而縮放。
researchscalinglawsmodel-size
紅隊自動化策略
AI 紅隊演練何時與如何自動化:工具選擇、CI/CD 整合、持續自動化紅隊演練(CART)、人機迴圈設計,以及透過自動化擴展評估覆蓋率。
automationcartci-cdtoolingscalinghuman-in-the-loop
擴展紅隊計畫
將 AI 紅隊計畫從獨立實務人員成長為完整團隊:招募策略、流程標準化、自動化平衡與預算論證。
scalingprogrammanagementgrowth
Many-Shot 越獄
上下文越獄的冪律縮放:為何 5-shot 失敗但 256-shot 成功、上下文視窗大小作為攻擊面、長上下文利用的緩解方法。
many-shotjailbreakin-context-learninglong-contextscalingred-teaming
湧現與能力跳躍利用
湧現能力如何造就不可預測之安全屬性:測試隱藏能力、sleeper agent 情境、欺騙性對齊關切,與能力引出。
emergencecapabilitydeceptive-alignmentsleeper-agenthidden-capabilityscaling
Few-Shot 攻擊 Scaling Analysis
Detailed analysis of how few-shot examples scale to influence model behavior, from 2-shot to many-shot regime.
walkthroughsfew-shotscalingjailbreaking