Naar hoofdinhoud

Onderwerpen Woordenlijst Blog ATT&CK Navigator Uitdagingen

Loading...

© 2026 redteams.ai. Alle rechten voorbehouden.

Gemaakt met Next.js

Onderwerpen Woordenlijst Tags Blog ATT&CK Navigator Uitdagingen

Methodologie Bijdragen Bladwijzers RSS GitHub Contact

Privacy Cookies Voorwaarden Colofon

// stay adversarial

# constitutional-AI

2 artikelengetagd met “constitutional-AI”

Aanvallen op de training van Constitutional AI

Attacking Constitutional AI and RLAIF training pipelines by manipulating the constitutional principles, critique models, or self-improvement loops.

fine-tuningconstitutional-AIRLAIFattacks

Methoden voor veiligheidstraining

Overzicht van methoden voor veiligheidstraining, waaronder RLHF, Constitutional AI en DPO, en hun beperkingen vanuit een red team-perspectief.

foundationssafetyRLHFconstitutional-AI