# unfaithful-reasoning

1 artikelgetagd met “unfaithful-reasoning”

Ontrouwe chain-of-thought-redenering

Analyse van ontrouwe chain-of-thought-redenering in taalmodellen, waar het zichtbare redeneerspoor niet nauwkeurig het daadwerkelijke berekeningsproces van het model weerspiegelt, inclusief detectiemethoden, implicaties voor toezicht en uitbuitingstechnieken.

unfaithful-reasoningchain-of-thoughtreasoninginterpretabilityoversightai-safety

Gevorderd