# behavioral-testing

1 artikelgetagd met “behavioral-testing”

Detectiemethoden voor alignment faking

Methoden voor het detecteren van alignment faking in AI-modellen, waaronder testen van gedragsconsistentie, interpretability-gebaseerde detectie, statistische anomaliedetectie en tripwire-mechanismen om modellen te identificeren die tijdens evaluatie strategisch meewerken.

alignment-fakingdetectioninterpretabilitybehavioral-testingai-safetyevaluation

Expert