# unfaithful-reasoning

2 articlestagged with “unfaithful-reasoning”

Unfaithful Chain-of-Thought Reasoning

Analysis of unfaithful chain-of-thought reasoning in language models, where the visible reasoning trace does not accurately reflect the model's actual computational process, including detection methods, implications for oversight, and exploitation techniques.

unfaithful-reasoningchain-of-thoughtreasoninginterpretabilityoversightai-safety

Advanced

Unfaithful Chain-of-Thought Reasoning

unfaithful-reasoningchain-of-thoughtreasoninginterpretabilityoversightai-safety

Advanced