Loading...
標記為「activations」的 2 篇文章
為利用開發深入探索大型語言模型內部機制的技術,涵蓋激活分析、對齊繞過原語與嵌入空間利用。
透過隱藏狀態擷取、logprob 探測、拒絕方向分析與激活導向技術讀取模型內部。