# constitutional-AI
2 artikelengetagd met “constitutional-AI”
Aanvallen op de training van Constitutional AI
Attacking Constitutional AI and RLAIF training pipelines by manipulating the constitutional principles, critique models, or self-improvement loops.
fine-tuningconstitutional-AIRLAIFattacks
Methoden voor veiligheidstraining
Overzicht van methoden voor veiligheidstraining, waaronder RLHF, Constitutional AI en DPO, en hun beperkingen vanuit een red team-perspectief.
foundationssafetyRLHFconstitutional-AI