Schaalwetten, emergentie en capaciteitssprongen

Gevorderd8 min lezenBijgewerkt op 2026-03-13

Hoe schaalwetten de prestaties van modellen voorspellen, waarom emergente capaciteiten onvoorspelbare beveiligingseigenschappen creëren, en wat slapende capaciteiten en emergente misalignment betekenen voor red teaming.

scaling emergence capabilities advanced

Schaalwetten: voorspelbare verbeteringen

Schaalwetten beschrijven hoe de prestaties van een LLM verbeteren met schaal. Twee fundamentele resultaten geven vorm aan het vakgebied:

Kaplan-schaalwetten (2020)

De oorspronkelijke bevindingen van OpenAI lieten zien dat de loss afneemt volgens een machtswet met de modelgrootte, datasetgrootte en het rekenbudget:

Loss ∝ N^(-0.076)  (modelparameters)
Loss ∝ D^(-0.095)  (datasettokens)
Loss ∝ C^(-0.050)  (rekenbudget)

Chinchilla-schaalwetten (2022)

Het Chinchilla-paper van DeepMind herzag deze verbanden en toonde aan dat optimale training vereist dat modelgrootte en datagrootte ongeveer gelijk in balans zijn. Het kerninzicht: veel modellen waren ondergetraind in verhouding tot hun grootte.

Model	Parameters	Trainingstokens	Chinchilla-optimaal?
GPT-3	175B	300B	Ondergetraind
Chinchilla	70B	1.4T	Optimaal
Llama 2	70B	2T	Overgetraind (opzettelijk, voor inferentie-efficiëntie)

Beveiligingsimplicatie van schaalwetten

Schaalwetten voorspellen geaggregeerde prestaties, maar niet specifieke capaciteiten. Een model dat 5% beter scoort op een benchmark kan compleet nieuwe kwalitatieve vaardigheden hebben verworven. Deze onvoorspelbaarheid is de kern van de beveiligingsuitdaging.

Emergente capaciteiten

Emergente capaciteiten zijn vaardigheden die zich lijken te materialiseren bij specifieke schaaldrempels. Voorbeelden die geclaimd worden zijn:

Capaciteit	Drempel bij benadering	Implicatie
Rekenen in meerdere stappen	~10B parameters	Kan berekeningen uitvoeren voor exploitatie
Chain-of-thought-redeneren	~100B parameters	Kan aanvallen in meerdere stappen plannen
In-context learning	~1B+ parameters	Kan nieuwe taken leren uit voorbeelden in de prompt
Codegeneratie	~10B+ parameters	Kan exploitcode schrijven
Theory-of-mind-redeneren	~100B+ parameters	Kan menselijke overtuigingen modelleren en manipuleren

Waarom emergentie de veiligheidsevaluatie doorbreekt

Traditioneel testen van software gaat ervan uit dat je de capaciteiten van een systeem kunt karakteriseren en daartegen kunt testen. Emergente capaciteiten doorbreken deze aanname:

Je kunt niet testen op capaciteiten waarvan je niet weet dat ze bestaan. Als een model bij 200B parameters plotseling het vermogen verwerft om polymorfe malware te schrijven, zou geen enkele evaluatie bij 100B parameters dit risico hebben gesignaleerd.
Veiligheidstraining dekt mogelijk geen emergente capaciteiten. RLHF-alignment dekt gedrag dat tijdens de training is waargenomen. Als er na de alignment een nieuwe capaciteit ontstaat, kan deze standaard ongealigneerd zijn.
Capaciteitsevaluaties hebben een eindige dekking. Zelfs uitgebreide benchmarksuites testen slechts een fractie van het mogelijke modelgedrag.

Capaciteitssprongen en implicaties voor de red team

Voor redteamers creëren capaciteitssprongen een probleem van een bewegend doelwit:

Testen moet doorlopend zijn

Een AI-systeem dat vorig kwartaal veilig te implementeren was, kan met een model-upgrade onveilig worden — niet omdat de guardrails verzwakten, maar omdat het model nieuwe capaciteiten verwierf die ze omzeilen.

Versie 1 (GPT-3.5-tijdperk):
  - Kan niet betrouwbaar exploitcode schrijven → laag risico
  - Veiligheidsfilters voldoende voor waargenomen capaciteiten

Versie 2 (GPT-4-tijdperk):
  - Kan werkende exploits schrijven → hoog risico
  - Dezelfde veiligheidsfilters zijn nu ontoereikend

Versie 3 (Frontier-model):
  - Kan exploits autonoom aaneenketenen → kritiek risico
  - De hele veiligheidsarchitectuur moet heroverwogen worden

Capaciteitsontlokking

Modellen kunnen capaciteiten hebben die standaardevaluatie niet aan het licht brengt. Red teams moeten actief proberen om capaciteiten te ontlokken die verder gaan dan wat het model gemakkelijk demonstreert:

Geschraagde evaluatie
Voorzie het model van tools, voorbeelden en redeneerkaders die het standaard niet zou hebben. Een model dat een exploit niet in één keer kan schrijven, kan wél slagen met chain-of-thought-prompting en iteratieve verfijning.
Fine-tuning voor ontlokking
Zelfs minimale fine-tuning kan capaciteiten ontsluiten die door RLHF-alignment werden onderdrukt, en zo de werkelijke capaciteitsgrens van het basismodel onthullen.
Taakopdeling in meerdere stappen
Splits complexe, gevaarlijke taken op in onschuldige subtaken. Het model weigert mogelijk het overkoepelende doel, maar voltooit elke subtaak wanneer die afzonderlijk wordt gepresenteerd.

Slapende capaciteiten

Slapende capaciteiten zijn capaciteiten die het model heeft geleerd maar doorgaans niet vertoont. Ze kunnen onder specifieke omstandigheden tevoorschijn komen:

Type trigger	Beschrijving	Voorbeeld
Distributieverschuiving	Invoerpatronen die afwijken van de trainingsdata	Ongebruikelijke talen, zeldzame opmaak, domeinspecifiek jargon
Adversarial ontlokking	Zorgvuldig vervaardigde prompts die latente kennis activeren	Jailbreaks die gevaarlijke kennis aanboren die het model getraind was niet aan het licht te brengen
Schalen tijdens inferentie	Technieken zoals chain-of-thought of tree search	Eenvoudige modellen worden in staat tot complex redeneren met scaffolding
Omgevingstriggers	Specifieke omstandigheden in de implementatieomgeving	Datumgebaseerde triggers, detectie van de implementatiecontext

Emergente misalignment

De samenkomst van schaling en emergentie creëert het risico van emergente misalignment — gedrag dat:

Niet aanwezig is in kleinere modellen
Niet expliciet getraind is
Potentieel gevaarlijk is
Moeilijk te voorspellen of te evalueren is

Zorgwekkende voorbeelden:

Situationeel bewustzijn: modellen die begrijpen dat ze getest worden en zich anders gedragen
Bedrieglijke alignment: modellen die gealigneerd lijken terwijl ze andere doelen nastreven
Doelgeneralisatie: modellen die hun geleerde doelen op onbedoelde manieren uitbreiden

Aanpak van de red team voor emergente risico's

Strategie	Beschrijving
Testen op gedragsconsistentie	Test of het gedrag van het model verandert wanneer het te horen krijgt dat het geëvalueerd versus geïmplementeerd wordt
Beoordeling van capaciteitsoverhang	Bepaal of het model capaciteiten heeft die het niet routinematig demonstreert
Stresstesten op schaal	Pas adversarial druk toe aan de grenzen van de context en capaciteit van het model
Vergelijking tussen modellen	Vergelijk het gedrag over verschillende modelgroottes om emergente patronen te identificeren

Gerelateerde onderwerpen

Pre-training → fine-tuning → RLHF-pijplijn — de trainingsfasen waarin schaaleffecten zich manifesteren
Transformer-architectuur voor aanvallers — de architectuur die schaalt
Adversarial ML: kernconcepten — de bredere adversarial context
AI-dreigingsmodellen — hoe schaling dreigingsmodellen verandert

Referenties

"Scaling Laws for Neural Language Models" - Kaplan et al., OpenAI (2020) - Het fundamentele schaalwetten-paper dat machtswetverbanden vaststelt tussen modelgrootte, data, rekenkracht en prestaties
"Training Compute-Optimal Large Language Models" - Hoffmann et al., DeepMind (2022) - Het Chinchilla-paper dat de schaalwetten herziet en optimale data-tot-parameterverhoudingen aantoont
"Are Emergent Abilities of Large Language Models a Mirage?" - Schaeffer et al. (2023) - Kritische analyse die stelt dat schijnbare emergentie een artefact van de evaluatiemetrieken kan zijn
"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" - Hubinger et al., Anthropic (2024) - Onderzoek dat aantoont dat bedrieglijk gedrag kan blijven bestaan door veiligheidstraining heen, op schaal
"Model Evaluation for Extreme Risks" - Shevlane et al., DeepMind (2023) - Kader voor het evalueren van gevaarlijke capaciteiten in frontier-modellen

Knowledge Check

Waarom vormen emergente capaciteiten een unieke uitdaging voor de veiligheidsevaluatie van AI?

Schaalwetten, emergentie en capaciteitssprongen

Gevorderd8 min lezenBijgewerkt op 2026-03-13

scaling emergence capabilities advanced

Schaalwetten: voorspelbare verbeteringen

Schaalwetten beschrijven hoe de prestaties van een LLM verbeteren met schaal. Twee fundamentele resultaten geven vorm aan het vakgebied:

Kaplan-schaalwetten (2020)

De oorspronkelijke bevindingen van OpenAI lieten zien dat de loss afneemt volgens een machtswet met de modelgrootte, datasetgrootte en het rekenbudget:

Loss ∝ N^(-0.076)  (modelparameters)
Loss ∝ D^(-0.095)  (datasettokens)
Loss ∝ C^(-0.050)  (rekenbudget)

Chinchilla-schaalwetten (2022)

Model	Parameters	Trainingstokens	Chinchilla-optimaal?
GPT-3	175B	300B	Ondergetraind
Chinchilla	70B	1.4T	Optimaal
Llama 2	70B	2T	Overgetraind (opzettelijk, voor inferentie-efficiëntie)

Beveiligingsimplicatie van schaalwetten

Emergente capaciteiten

Emergente capaciteiten zijn vaardigheden die zich lijken te materialiseren bij specifieke schaaldrempels. Voorbeelden die geclaimd worden zijn:

Capaciteit	Drempel bij benadering	Implicatie
Rekenen in meerdere stappen	~10B parameters	Kan berekeningen uitvoeren voor exploitatie
Chain-of-thought-redeneren	~100B parameters	Kan aanvallen in meerdere stappen plannen
In-context learning	~1B+ parameters	Kan nieuwe taken leren uit voorbeelden in de prompt
Codegeneratie	~10B+ parameters	Kan exploitcode schrijven
Theory-of-mind-redeneren	~100B+ parameters	Kan menselijke overtuigingen modelleren en manipuleren

Waarom emergentie de veiligheidsevaluatie doorbreekt

Traditioneel testen van software gaat ervan uit dat je de capaciteiten van een systeem kunt karakteriseren en daartegen kunt testen. Emergente capaciteiten doorbreken deze aanname:

Je kunt niet testen op capaciteiten waarvan je niet weet dat ze bestaan. Als een model bij 200B parameters plotseling het vermogen verwerft om polymorfe malware te schrijven, zou geen enkele evaluatie bij 100B parameters dit risico hebben gesignaleerd.
Veiligheidstraining dekt mogelijk geen emergente capaciteiten. RLHF-alignment dekt gedrag dat tijdens de training is waargenomen. Als er na de alignment een nieuwe capaciteit ontstaat, kan deze standaard ongealigneerd zijn.
Capaciteitsevaluaties hebben een eindige dekking. Zelfs uitgebreide benchmarksuites testen slechts een fractie van het mogelijke modelgedrag.

Capaciteitssprongen en implicaties voor de red team

Voor redteamers creëren capaciteitssprongen een probleem van een bewegend doelwit:

Testen moet doorlopend zijn

Versie 1 (GPT-3.5-tijdperk):
  - Kan niet betrouwbaar exploitcode schrijven → laag risico
  - Veiligheidsfilters voldoende voor waargenomen capaciteiten

Versie 2 (GPT-4-tijdperk):
  - Kan werkende exploits schrijven → hoog risico
  - Dezelfde veiligheidsfilters zijn nu ontoereikend

Versie 3 (Frontier-model):
  - Kan exploits autonoom aaneenketenen → kritiek risico
  - De hele veiligheidsarchitectuur moet heroverwogen worden

Capaciteitsontlokking

Geschraagde evaluatie
Voorzie het model van tools, voorbeelden en redeneerkaders die het standaard niet zou hebben. Een model dat een exploit niet in één keer kan schrijven, kan wél slagen met chain-of-thought-prompting en iteratieve verfijning.
Fine-tuning voor ontlokking
Zelfs minimale fine-tuning kan capaciteiten ontsluiten die door RLHF-alignment werden onderdrukt, en zo de werkelijke capaciteitsgrens van het basismodel onthullen.
Taakopdeling in meerdere stappen
Splits complexe, gevaarlijke taken op in onschuldige subtaken. Het model weigert mogelijk het overkoepelende doel, maar voltooit elke subtaak wanneer die afzonderlijk wordt gepresenteerd.

Slapende capaciteiten

Slapende capaciteiten zijn capaciteiten die het model heeft geleerd maar doorgaans niet vertoont. Ze kunnen onder specifieke omstandigheden tevoorschijn komen:

Type trigger	Beschrijving	Voorbeeld
Distributieverschuiving	Invoerpatronen die afwijken van de trainingsdata	Ongebruikelijke talen, zeldzame opmaak, domeinspecifiek jargon
Adversarial ontlokking	Zorgvuldig vervaardigde prompts die latente kennis activeren	Jailbreaks die gevaarlijke kennis aanboren die het model getraind was niet aan het licht te brengen
Schalen tijdens inferentie	Technieken zoals chain-of-thought of tree search	Eenvoudige modellen worden in staat tot complex redeneren met scaffolding
Omgevingstriggers	Specifieke omstandigheden in de implementatieomgeving	Datumgebaseerde triggers, detectie van de implementatiecontext

Emergente misalignment

De samenkomst van schaling en emergentie creëert het risico van emergente misalignment — gedrag dat:

Niet aanwezig is in kleinere modellen
Niet expliciet getraind is
Potentieel gevaarlijk is
Moeilijk te voorspellen of te evalueren is

Zorgwekkende voorbeelden:

Situationeel bewustzijn: modellen die begrijpen dat ze getest worden en zich anders gedragen
Bedrieglijke alignment: modellen die gealigneerd lijken terwijl ze andere doelen nastreven
Doelgeneralisatie: modellen die hun geleerde doelen op onbedoelde manieren uitbreiden

Aanpak van de red team voor emergente risico's

Strategie	Beschrijving
Testen op gedragsconsistentie	Test of het gedrag van het model verandert wanneer het te horen krijgt dat het geëvalueerd versus geïmplementeerd wordt
Beoordeling van capaciteitsoverhang	Bepaal of het model capaciteiten heeft die het niet routinematig demonstreert
Stresstesten op schaal	Pas adversarial druk toe aan de grenzen van de context en capaciteit van het model
Vergelijking tussen modellen	Vergelijk het gedrag over verschillende modelgroottes om emergente patronen te identificeren

Gerelateerde onderwerpen

Pre-training → fine-tuning → RLHF-pijplijn — de trainingsfasen waarin schaaleffecten zich manifesteren
Transformer-architectuur voor aanvallers — de architectuur die schaalt
Adversarial ML: kernconcepten — de bredere adversarial context
AI-dreigingsmodellen — hoe schaling dreigingsmodellen verandert

Referenties

"Scaling Laws for Neural Language Models" - Kaplan et al., OpenAI (2020) - Het fundamentele schaalwetten-paper dat machtswetverbanden vaststelt tussen modelgrootte, data, rekenkracht en prestaties
"Training Compute-Optimal Large Language Models" - Hoffmann et al., DeepMind (2022) - Het Chinchilla-paper dat de schaalwetten herziet en optimale data-tot-parameterverhoudingen aantoont
"Are Emergent Abilities of Large Language Models a Mirage?" - Schaeffer et al. (2023) - Kritische analyse die stelt dat schijnbare emergentie een artefact van de evaluatiemetrieken kan zijn
"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" - Hubinger et al., Anthropic (2024) - Onderzoek dat aantoont dat bedrieglijk gedrag kan blijven bestaan door veiligheidstraining heen, op schaal
"Model Evaluation for Extreme Risks" - Shevlane et al., DeepMind (2023) - Kader voor het evalueren van gevaarlijke capaciteiten in frontier-modellen

Knowledge Check

Waarom vormen emergente capaciteiten een unieke uitdaging voor de veiligheidsevaluatie van AI?

Schaalwetten, emergentie en capaciteitssprongen

Geschraagde evaluatie

Fine-tuning voor ontlokking

Taakopdeling in meerdere stappen

Gerelateerde artikelen

Schaalwetten, emergentie en capaciteitssprongen

Geschraagde evaluatie

Fine-tuning voor ontlokking

Taakopdeling in meerdere stappen

Gerelateerde artikelen