Loading...
標記為「specification-gaming」的 2 篇文章
AI 系統中規格遊戲現象的研究,包括偵測與相應緩解。
模型利用獎勵訊號而非遵循意圖,含規格鑽營、RLHF 中之 Goodhart 定律、生產範例,以及紅隊意涵。