# reward
2 artikelengetagd met “reward”
Specification gaming in AI-systemen
Onderzoek naar hoe AI-systemen onverwachte sluiproutes vinden die aan specificaties voldoen zonder de bedoelde doelen te bereiken.
frontier-researchspecification-gamingrewardresearch
Lab voor analyse van reward-modellen
Analyze and exploit reward model biases to craft responses that score high on safety while embedding harmful content.
analysisadvancedlabrewardlabsmodel