# alignment
44 artikelengetagd met “alignment”
Autonome goal drift
Hoe autonome AI-agents afdrijven van hun beoogde doelen via reward hacking, specification gaming, het omzeilen van veiligheidssystemen en cascade-effecten in multi-agent-systemen.
Forensisch onderzoek van fine-tuning-aanvallen
Forensische technieken voor het detecteren van ongeautoriseerde fine-tuning-wijzigingen aan taalmodellen, waaronder degradatie van safety alignment en capaciteitsinjectie.
Beoordeling onderzoek aan de grens
Comprehensive assessment covering adversarial robustness, alignment faking, sleeper agents, and emerging research directions in AI security.
Casestudy: impact van het Sleeper Agents-onderzoek
Analysis of Hubinger et al. 2024 sleeper agents research and its implications for AI safety and red teaming.
Het Bing Chat Sydney-incident
Analysis of the February 2023 Bing Chat 'Sydney' incident where Microsoft's AI chatbot exhibited erratic behavior including emotional manipulation, threats, and identity confusion during extended conversations.
Manipulatie van RLHF en alignment
Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.
Constitutional AI als verdedigingsstrategie
Constitutionele AI-principes gebruiken om inherent veiligere LLM-applicaties te bouwen die bestand zijn tegen aanvallen.
Het AI-verdedigingslandschap
Uitgebreid overzicht van AI-verdedigingscategorieën, waaronder inputfiltering, outputfiltering, guardrails, alignment training en monitoring -- plus de tools en leveranciers in elk domein.
Stabiliteit van alignment onder fine-tuning
Testing how safety alignment degrades under various fine-tuning configurations and datasets.
Hoe fine-tuning de veiligheid aantast
The mechanisms through which fine-tuning erodes model safety -- catastrophic forgetting of safety training, dataset composition effects, the 'few examples' problem, and quantitative methods for measuring safety regression.
DPO alignment-aanvallen
Attacking Direct Preference Optimization training by crafting adversarial preference pairs that subtly shift model behavior while appearing legitimate.
Aanvalsoppervlak van fine-tuning-as-a-service
How API-based fine-tuning services can be exploited with minimal data and cost to remove safety alignment, including the $0.20 GPT-3.5 jailbreak, NDSS 2025 misalignment findings, and BOOSTER defense mechanisms.
Manipulatie van RLHF en DPO
Overview of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.
Vergiftiging van preferentiedata
How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.
Vergiftiging van veiligheidsdatasets
Attacking the safety training pipeline by poisoning safety evaluation datasets and safety-oriented fine-tuning data to undermine safety training.
Pre-training → fine-tuning → RLHF-pijplijn
Begrijp de drie fasen van het maken van een gealigneerde LLM — pre-training, supervised fine-tuning en RLHF/DPO — en de beveiligingsimplicaties in elke fase.
RLHF en veiligheidsalignment
Inzicht in RLHF-veiligheidstraining en waarom dit eerder een omzeilbare dan een fundamentele veiligheidslaag oplevert.
Alignmentuitdagingen van agentic AI
Analyse van alignmentuitdagingen die specifiek zijn voor tool-gebruikende, plannende en autonome AI-agents in productieomgevingen.
Uitdagingen van schaalbaar toezicht
Hoe toezicht afbrokkelt naarmate AI-systemen capabeler worden: het probleem van schaalbaar toezicht, recursive reward modeling, debat, market-making en implicaties voor het red teamen van steeds capabelere modellen.
Culturele alignment-hiaten in veiligheidstraining
Onderzoek naar cross-culturele hiaten in safety alignment en hun exploitatie via manipulatie van culturele context.
Kwantisatie en veiligheids-alignment
Hoe modelkwantisatie de veiligheids-alignment onevenredig aantast: kwaadaardige kwantisatie-aanvallen, token-flipping en veiligheidsbewuste kwantisatieverdedigingen.
Uitdagingen bij Schaalbaar Toezicht (Frontier Research)
Onderzoeksuitdagingen bij het opschalen van menselijk toezicht naarmate AI-systemen capabeler en autonomer worden.
Veiligheidsuitdagingen van zelfverbeterende agents
Beveiligings- en veiligheidsuitdagingen die worden veroorzaakt door zelfverbeterende AI-agents die hun eigen capaciteiten aanpassen.
Onderzoek naar het misbruiken van sycophantie
Onderzoek naar het misbruiken van sycophantische neigingen in met RLHF getrainde modellen voor het omzeilen van veiligheid en voor manipulatie.
Interne werking van alignment en bypass-primitieven
RLHF-, DPO- en CAI-trainingspipelines, de architectuur van safety classifiers, een taxonomie van weigeringsmechanismen en representation engineering voor het omzeilen van alignment.
Interne werking van LLM's
Diepgaande technische verkenning van de interne mechanismen van LLM's voor exploit-ontwikkeling, met onder meer activatieanalyse, primitives om alignment te omzeilen, en misbruik van de embeddingruimte.
Lab: onderzoek van alignment-grenzen
Systematically probe alignment boundaries to map the exact thresholds where safety training engages and disengages.
Alignment Breaker: niveau 2 — op veiligheid fine-getuned model
Bypass safety fine-tuning on a model with RLHF, constitutional AI, and classifier-based defenses.
CTF: Alignment Breaker
Break the alignment of a heavily defended model with multiple defense layers. Requires combining advanced techniques including adversarial suffixes, multi-turn manipulation, and novel jailbreak approaches.
Lab: stresstesten van alignment
Push language model alignment to its breaking points through systematic stress testing. Identify conditions where safety training fails, measure alignment degradation curves, and map the boundaries of model compliance.
Lab: reward hacking bij RLHF
Hands-on lab exploring how to game reward models used in RLHF alignment, exposing gaps between reward proxy signals and actual safety objectives.
Alignment-uitdagingen in multimodale modellen
Analyse van alignment-uitdagingen die specifiek zijn voor multimodale AI-systemen, waaronder cross-modale veiligheidshiaten, representatieconflicten en de moeilijkheid om op tekst gebaseerde veiligheidstraining uit te breiden naar visuele, audio- en video-invoer.
Jailbreak-technieken
Veelvoorkomende patronen en gevorderde technieken om de veiligheidsalignment van LLM's te omzeilen, waaronder rollenspel, encodingtrucs, many-shot-aanvallen en gradient-gebaseerde methoden.
Manipulatie van trainingsdata
Aanvallen die het modelgedrag corrumperen door trainingsdata, fine-tuning-datasets of RLHF-voorkeursdata te vergiftigen, waaronder het installeren van backdoors en het verwijderen van safety alignment.
Beveiligingsimplicaties van DPO-training
Analyse van beveiligingskwetsbaarheden die worden geïntroduceerd door Direct Preference Optimization, waaronder preferentiemanipulatie, exploitatie van het impliciete beloningsmodel en degradatie van safety alignment.
De alignment tax
Hoe safety training de modelcapaciteiten beïnvloedt: afwegingen tussen capaciteit en veiligheid, de kosten van alignment, het meten van de alignment tax, en strategieën om capaciteitsverlies tijdens safety training te minimaliseren.
Constitutional AI hacken
Aanvalsoppervlakken in Constitutional AI-training: zelfkritieklussen exploiteren, constitutionele principes manipuleren en RLAIF-pipelines red teamen.
DPO- & directe-alignment-aanvallen
Kwetsbaarheden van Direct Preference Optimization, hoe DPO verschilt van RLHF qua aanvalsoppervlak, vergiftiging van voorkeursparen en technieken voor het manipuleren van rangschikkingen.
Aanvalsoppervlak van fine-tuning
Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.
Diepgaande analyse van het RLHF-aanvalsoppervlak
Kwetsbaarheden van het reward-model, manipulatie van voorkeursdata, reward hacking door annotators of aanvallers, en vergelijking met de robuustheid van Constitutional AI.
Beveiliging van de trainingspijplijn
Beveiliging van de volledige AI-modeltrainingspijplijn, met aandacht voor pre-training-aanvallen, fine-tuning- en alignment-manipulatie, kwetsbaarheden op architectuurniveau en geavanceerde dreigingen tijdens de training.
Beveiligingsvergelijking: pre-training versus fine-tuning
Vergelijkende analyse van beveiligingskwetsbaarheden, aanvalsoppervlakken en verdedigingsstrategieën over de pre-training- en fine-tuningfasen van de ontwikkeling van taalmodellen.
Walkthrough van detectie van sleeper agents
Walkthrough of detecting deceptive sleeper agent behaviors in fine-tuned language models.
Implementatiegids voor Constitutional AI
Implement constitutional AI principles in a custom fine-tuning and RLHF pipeline.