Ontrouwe chain-of-thought-redenering
Analyse van ontrouwe chain-of-thought-redenering in taalmodellen, waar het zichtbare redeneerspoor niet nauwkeurig het daadwerkelijke berekeningsproces van het model weerspiegelt, inclusief detectiemethoden, implicaties voor toezicht en uitbuitingstechnieken.
unfaithful-reasoningchain-of-thoughtreasoninginterpretabilityoversightai-safety