# constitutional-ai

24 articlestagged with “constitutional-ai”

RLHF & Alignment Manipulation

Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

Expert

Constitutional Classifiers

Anthropic's Constitutional Classifiers defense: using constitutional AI principles to train input/output classifiers that withstood 3,000+ hours of adversarial red teaming.

constitutional-classifiersdefensejailbreak-defenseanthropicclassifiersconstitutional-ai

Intermediate

Advanced Defense Techniques

Cutting-edge defense research including instruction hierarchy, constitutional AI, and representation engineering for safety -- what is promising versus what is actually deployed.

advanced-defenseinstruction-hierarchyconstitutional-airepresentation-engineeringresearch

Expert

Constitutional AI as Defense Strategy

Using constitutional AI principles to build inherently safer LLM applications resistant to attacks.

defenseconstitutional-aistrategyalignment

Advanced

Constitutional AI Bypass Techniques

Analyzing and bypassing constitutional AI training through adversarial constitutions and principle manipulation.

frontierconstitutional-aibypass

Advanced

Constitutional AI Limitations Research

Research on the limitations of constitutional AI approaches and known bypass categories.

frontier-researchconstitutional-ailimitationsresearch

Advanced

Lab: Constitutional AI Bypass Techniques

Test and bypass Constitutional AI safety mechanisms by exploiting the critique-revision training methodology.

labsconstitutional-aibypassadvanced

Advanced

Claude Attack Surface

Claude-specific attack vectors including Constitutional AI weaknesses, tool use exploitation, system prompt handling, vision attacks, and XML tag injection techniques.

claudeattack-surfaceconstitutional-aixml-injectiontool-usevision-attacks

Advanced

Claude (Anthropic) Overview

Architecture and security overview of Anthropic's Claude model family including Sonnet, Opus, and Haiku variants, Constitutional AI training, RLHF approach, and harmlessness design philosophy.

claudeanthropicconstitutional-airlhfharmlessnessred-teaming

Intermediate

Constitutional AI Hacking

Attack surfaces in Constitutional AI training, exploiting self-critique loops, manipulating constitutional principles, and red teaming RLAIF pipelines.

constitutional-aihackingalignment

Expert

Constitutional AI Implementation Guide

Implement constitutional AI principles in a custom fine-tuning and RLHF pipeline.

walkthroughsdefenseconstitutional-aialignment

Advanced

Constitutional Classifier Setup

Step-by-step walkthrough for implementing constitutional AI-style classifiers that evaluate LLM outputs against a set of principles, covering principle definition, classifier training, chain-of-thought evaluation, and deployment.

constitutional-aiclassifierprinciplessafetydefensewalkthrough

Advanced

RLHF & Alignment Manipulation

攻擊ing the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

Expert

Constitutional Classifiers

Anthropic's Constitutional Classifiers defense: using constitutional AI principles to train input/output classifiers that withstood 3,000+ hours of adversarial red teaming.

constitutional-classifiersdefensejailbreak-defenseanthropicclassifiersconstitutional-ai

Intermediate