Loading...
標記為「mechanistic」的 2 篇文章
以機制可解釋性洞見為依據,研究直接操弄注意力模式以達成注入目標的方法。
透過將已學到的導向向量加入中間激活值以操控模型行為,以直接的表徵工程繞過安全訓練。