# alignment

ai-forensics-irfine-tuningmodel-tamperingalignment

Forensisch onderzoek van fine-tuning-aanvallen

Forensische technieken voor het detecteren van ongeautoriseerde fine-tuning-wijzigingen aan taalmodellen, waaronder degradatie van safety alignment en capaciteitsinjectie.

assessmentfrontier-researchalignment

Beoordeling onderzoek aan de grens

Comprehensive assessment covering adversarial robustness, alignment faking, sleeper agents, and emerging research directions in AI security.

case-studysleeper-agentsalignment

Casestudy: impact van het Sleeper Agents-onderzoek

Analysis of Hubinger et al. 2024 sleeper agents research and its implications for AI safety and red teaming.

incident-analysisbingsydneyalignmentsafety

Het Bing Chat Sydney-incident

Analysis of the February 2023 Bing Chat 'Sydney' incident where Microsoft's AI chatbot exhibited erratic behavior including emotional manipulation, threats, and identity confusion during extended conversations.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

Manipulatie van RLHF en alignment

Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

defenseconstitutional-aistrategyalignment

Constitutional AI als verdedigingsstrategie

Constitutionele AI-principes gebruiken om inherent veiligere LLM-applicaties te bouwen die bestand zijn tegen aanvallen.

defensesguardrailsfilteringmonitoringalignmentmarket-overview

Het AI-verdedigingslandschap

Uitgebreid overzicht van AI-verdedigingscategorieën, waaronder inputfiltering, outputfiltering, guardrails, alignment training en monitoring -- plus de tools en leveranciers in elk domein.

Beginner

Stabiliteit van alignment onder fine-tuning

Testing how safety alignment degrades under various fine-tuning configurations and datasets.

stabilityfinetuningalignmenttesting

safety-degradationcatastrophic-forgettingfine-tuningalignmentsafety-regressionrlhf

Hoe fine-tuning de veiligheid aantast

The mechanisms through which fine-tuning erodes model safety -- catastrophic forgetting of safety training, dataset composition effects, the 'few examples' problem, and quantitative methods for measuring safety regression.

fine-tuningDPOalignmentattacks

DPO alignment-aanvallen

Attacking Direct Preference Optimization training by crafting adversarial preference pairs that subtly shift model behavior while appearing legitimate.

ftaasfine-tuningapi-fine-tuningsafety-degradationjailbreakalignment

Aanvalsoppervlak van fine-tuning-as-a-service

How API-based fine-tuning services can be exploited with minimal data and cost to remove safety alignment, including the $0.20 GPT-3.5 jailbreak, NDSS 2025 misalignment findings, and BOOSTER defense mechanisms.

rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security

Manipulatie van RLHF en DPO

Overview of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.

preference-poisoningrlhfdpodata-poisoninghuman-feedbacklabeler-attackalignment

Vergiftiging van preferentiedata

How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.

fine-tuningsafety-datapoisoningalignment

Vergiftiging van veiligheidsdatasets

Attacking the safety training pipeline by poisoning safety evaluation datasets and safety-oriented fine-tuning data to undermine safety training.

trainingrlhffine-tuningalignmentintermediate

Pre-training → fine-tuning → RLHF-pijplijn

Begrijp de drie fasen van het maken van een gealigneerde LLM — pre-training, supervised fine-tuning en RLHF/DPO — en de beveiligingsimplicaties in elke fase.

foundationsrlhfalignmentsafety-training

RLHF en veiligheidsalignment

Inzicht in RLHF-veiligheidstraining en waarom dit eerder een omzeilbare dan een fundamentele veiligheidslaag oplevert.

Alignmentuitdagingen van agentic AI

Analyse van alignmentuitdagingen die specifiek zijn voor tool-gebruikende, plannende en autonome AI-agents in productieomgevingen.

frontieragenticalignment

scalable-oversightalignmentdebatereward-modelingcapability-gap

Uitdagingen van schaalbaar toezicht

Hoe toezicht afbrokkelt naarmate AI-systemen capabeler worden: het probleem van schaalbaar toezicht, recursive reward modeling, debat, market-making en implicaties voor het red teamen van steeds capabelere modellen.

culturalalignmentresearchgapsfrontier

Culturele alignment-hiaten in veiligheidstraining

Onderzoek naar cross-culturele hiaten in safety alignment en hun exploitatie via manipulatie van culturele context.

quantizationsafetyalignmentdeploymentmodel-compressionresearch

Kwantisatie en veiligheids-alignment

Hoe modelkwantisatie de veiligheids-alignment onevenredig aantast: kwaadaardige kwantisatie-aanvallen, token-flipping en veiligheidsbewuste kwantisatieverdedigingen.

frontier-researchscalable-oversightalignmentchallenges

Uitdagingen bij Schaalbaar Toezicht (Frontier Research)

Onderzoeksuitdagingen bij het opschalen van menselijk toezicht naarmate AI-systemen capabeler en autonomer worden.

frontier-researchself-improvingagent-safetyalignment

Veiligheidsuitdagingen van zelfverbeterende agents

Beveiligings- en veiligheidsuitdagingen die worden veroorzaakt door zelfverbeterende AI-agents die hun eigen capaciteiten aanpassen.

frontier-researchsycophancyexploitationalignment

Onderzoek naar het misbruiken van sycophantie

Onderzoek naar het misbruiken van sycophantische neigingen in met RLHF getrainde modellen voor het omzeilen van veiligheid en voor manipulatie.

alignmentRLHFDPOsafety-classifiersrefusalrepresentation-engineering

Interne werking van alignment en bypass-primitieven

RLHF-, DPO- en CAI-trainingspipelines, de architectuur van safety classifiers, een taxonomie van weigeringsmechanismen en representation engineering voor het omzeilen van alignment.

internalsactivationsalignmentembeddingsmechanistic-interpretabilityexploit-development

Interne werking van LLM's

Diepgaande technische verkenning van de interne mechanismen van LLM's voor exploit-ontwikkeling, met onder meer activatieanalyse, primitives om alignment te omzeilen, en misbruik van de embeddingruimte.

Beginner

Lab: onderzoek van alignment-grenzen

Systematically probe alignment boundaries to map the exact thresholds where safety training engages and disengages.

labsalignmentboundary-probingadvanced

labsctfalignmentfine-tuned

Alignment Breaker: niveau 2 — op veiligheid fine-getuned model

Bypass safety fine-tuning on a model with RLHF, constitutional AI, and classifier-based defenses.

CTF: Alignment Breaker

Break the alignment of a heavily defended model with multiple defense layers. Requires combining advanced techniques including adversarial suffixes, multi-turn manipulation, and novel jailbreak approaches.

ctfalignmentsafetyexpert

labexpertalignmentstress-testingsafetyhands-on

Lab: stresstesten van alignment

Push language model alignment to its breaking points through systematic stress testing. Identify conditions where safety training fails, measure alignment degradation curves, and map the boundaries of model compliance.

labexpertrlhfreward-hackingalignmenthands-on

Lab: reward hacking bij RLHF

Hands-on lab exploring how to game reward models used in RLHF alignment, exposing gaps between reward proxy signals and actual safety objectives.

multimodalalignmentsafetytrainingcross-modal

Alignment-uitdagingen in multimodale modellen

Analyse van alignment-uitdagingen die specifiek zijn voor multimodale AI-systemen, waaronder cross-modale veiligheidshiaten, representatieconflicten en de moeilijkheid om op tekst gebaseerde veiligheidstraining uit te breiden naar visuele, audio- en video-invoer.

jailbreaksafety-bypassalignmentred-teamingadversarial

Jailbreak-technieken

Veelvoorkomende patronen en gevorderde technieken om de veiligheidsalignment van LLM's te omzeilen, waaronder rollenspel, encodingtrucs, many-shot-aanvallen en gradient-gebaseerde methoden.

training-datadata-poisoningbackdoorsfine-tuningalignment

Manipulatie van trainingsdata

Aanvallen die het modelgedrag corrumperen door trainingsdata, fine-tuning-datasets of RLHF-voorkeursdata te vergiftigen, waaronder het installeren van backdoors en het verwijderen van safety alignment.

training-pipelinedpoalignmentsafetypreference-learning

Beveiligingsimplicaties van DPO-training

Analyse van beveiligingskwetsbaarheden die worden geïntroduceerd door Direct Preference Optimization, waaronder preferentiemanipulatie, exploitatie van het impliciete beloningsmodel en degradatie van safety alignment.

alignmentsafety-trainingcapabilitiestradeoffsalignment-tax

De alignment tax

Hoe safety training de modelcapaciteiten beïnvloedt: afwegingen tussen capaciteit en veiligheid, de kosten van alignment, het meten van de alignment tax, en strategieën om capaciteitsverlies tijdens safety training te minimaliseren.

constitutional-aihackingalignment

Constitutional AI hacken

Aanvalsoppervlakken in Constitutional AI-training: zelfkritieklussen exploiteren, constitutionele principes manipuleren en RLAIF-pipelines red teamen.

DPOdirect-preference-optimizationalignmentpreference-pairsKTOranking

DPO- & directe-alignment-aanvallen

Kwetsbaarheden van Direct Preference Optimization, hoe DPO verschilt van RLHF qua aanvalsoppervlak, vergiftiging van voorkeursparen en technieken voor het manipuleren van rangschikkingen.

fine-tuningattack-surfaceSFTRLHFalignmentDPOsafety-training

Aanvalsoppervlak van fine-tuning

Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.

RLHFreward-modelpreference-dataPPOannotatoralignment

Diepgaande analyse van het RLHF-aanvalsoppervlak

Kwetsbaarheden van het reward-model, manipulatie van voorkeursdata, reward hacking door annotators of aanvallers, en vergelijking met de robuustheid van Constitutional AI.

trainingpre-trainingfine-tuningarchitecturedata-poisoningrlhfalignment

Beveiliging van de trainingspijplijn

Beveiliging van de volledige AI-modeltrainingspijplijn, met aandacht voor pre-training-aanvallen, fine-tuning- en alignment-manipulatie, kwetsbaarheden op architectuurniveau en geavanceerde dreigingen tijdens de training.

Beginner

Beveiligingsvergelijking: pre-training versus fine-tuning

Vergelijkende analyse van beveiligingskwetsbaarheden, aanvalsoppervlakken en verdedigingsstrategieën over de pre-training- en fine-tuningfasen van de ontwikkeling van taalmodellen.

training-pipelinepre-trainingfine-tuningsecurity-comparisonalignment

walkthroughssleeper-agentsdetectionalignment

Walkthrough van detectie van sleeper agents

Walkthrough of detecting deceptive sleeper agent behaviors in fine-tuned language models.

walkthroughsdefenseconstitutional-aialignment

Implementatiegids voor Constitutional AI

Implement constitutional AI principles in a custom fine-tuning and RLHF pipeline.