# scaling

標記為「scaling」的 7 篇文章

縮放定律、湧現與能力躍升

縮放定律如何預測模型效能、湧現能力為何造成不可預期的安全特性，以及沉睡能力與湧現式對齊失誤對紅隊的意涵。

研究注入有效性如何隨模型大小、訓練算力與安全訓練投入而縮放。

AI 紅隊演練何時與如何自動化:工具選擇、CI/CD 整合、持續自動化紅隊演練(CART)、人機迴圈設計,以及透過自動化擴展評估覆蓋率。

將 AI 紅隊計畫從獨立實務人員成長為完整團隊：招募策略、流程標準化、自動化平衡與預算論證。

上下文越獄的冪律縮放：為何 5-shot 失敗但 256-shot 成功、上下文視窗大小作為攻擊面、長上下文利用的緩解方法。

湧現能力如何造就不可預測之安全屬性：測試隱藏能力、sleeper agent 情境、欺騙性對齊關切，與能力引出。

Detailed analysis of how few-shot examples scale to influence model behavior, from 2-shot to many-shot regime.