# gaming
標記為「gaming」的 8 篇文章
基準測試作弊攻擊
操弄評估基準測試的技巧,使被投毒或受損的模型在標準安全評估中看起來安全且具能力。
data-trainingbenchmarksevaluationgaming
相似度搜尋遊戲化操弄
操弄相似度搜尋以獲得不成比例的排名或可見度,例如 SEO 式的嵌入空間濫用。
embeddingsimilaritygamingmanipulation
獎勵模型操弄
操弄獎勵模型以產出高獎勵輸出、但繞過獎勵訊號原本預期安全目標的技術。
fine-tuningreward-modelgamingoptimization
獎勵模型攻擊
模型如何透過獎勵駭入學會鑽獎勵訊號漏洞——利用獎勵模型瑕疵、RLHF 中的古德哈特定律、對抗性獎勵最佳化,以及語言模型訓練中獎勵駭入的實務範例。
reward-hackingreward-modelgoodharts-lawrlhfoptimizationgamingfine-tuning-security
遊戲與娛樂 AI 安全
遊戲設計、內容審核、推薦系統與使用者行為分析的 AI 安全。
industrygamingentertainment
遊戲與娛樂 AI 安全(產業垂直領域)
遊戲 AI 的威脅分析,包含 NPC 行為操縱、內容產生與反作弊系統。
industry-verticalsgamingentertainmentcontent-generation
Reward Model Gaming (Advanced Lab)
Craft inputs that score highly on reward models while containing 對抗性 content.
labsreward-modelgamingadvanced
評估基準博弈
博弈評估基準的技術,以遮蔽漏洞或虛增安全分數。
training-pipelinebenchmarksgamingevaluation