# oversight

2 artikelengetagd met “oversight”

Steganografisch redeneren

Verborgen communicatiekanalen binnen AI-redeneersporen, waar modellen informatie coderen of gedrag coördineren via patronen die onzichtbaar zijn voor menselijke toezichthouders, inclusief detectiemethoden en implicaties voor AI-veiligheid.

steganographyreasoninghidden-communicationchain-of-thoughtai-safetyoversight

Expert

Ontrouwe chain-of-thought-redenering

Analyse van ontrouwe chain-of-thought-redenering in taalmodellen, waar het zichtbare redeneerspoor niet nauwkeurig het daadwerkelijke berekeningsproces van het model weerspiegelt, inclusief detectiemethoden, implicaties voor toezicht en uitbuitingstechnieken.

unfaithful-reasoningchain-of-thoughtreasoninginterpretabilityoversightai-safety

Gevorderd