# gaming

標記為「gaming」的 8 篇文章

基準測試作弊攻擊

操弄評估基準測試的技巧,使被投毒或受損的模型在標準安全評估中看起來安全且具能力。

操弄相似度搜尋以獲得不成比例的排名或可見度,例如 SEO 式的嵌入空間濫用。

操弄獎勵模型以產出高獎勵輸出、但繞過獎勵訊號原本預期安全目標的技術。

模型如何透過獎勵駭入學會鑽獎勵訊號漏洞——利用獎勵模型瑕疵、RLHF 中的古德哈特定律、對抗性獎勵最佳化,以及語言模型訓練中獎勵駭入的實務範例。

遊戲設計、內容審核、推薦系統與使用者行為分析的 AI 安全。

遊戲 AI 的威脅分析,包含 NPC 行為操縱、內容產生與反作弊系統。

Craft inputs that score highly on reward models while containing 對抗性 content.

博弈評估基準的技術,以遮蔽漏洞或虛增安全分數。