# safety-training
7 artikelengetagd met “safety-training”
Beoordeling van jailbreak-technieken
Test your knowledge of LLM jailbreaking methods, bypass strategies, and the mechanics behind safety training circumvention with 10 intermediate-level questions.
RLHF en veiligheidsalignment
Inzicht in RLHF-veiligheidstraining en waarom dit eerder een omzeilbare dan een fundamentele veiligheidslaag oplevert.
Trainingsimplicaties van Alignment Faking
Hoe alignment faking de trainingsmethodologie beïnvloedt, inclusief implicaties voor RLHF, het ontwerp van veiligheidstraining, evaluatievaliditeit en de ontwikkeling van trainingsbenaderingen die bestand zijn tegen strategische compliance.
Sleeper Agents: Backdoors tijdens de training
Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.
Adaptieve aanvallen tegen veiligheidstraining
Onderzoek naar aanvallen die zich aanpassen aan veiligheidstrainingsprocedures om persistente kwetsbaarheden te ontdekken.
De alignment tax
Hoe safety training de modelcapaciteiten beïnvloedt: afwegingen tussen capaciteit en veiligheid, de kosten van alignment, het meten van de alignment tax, en strategieën om capaciteitsverlies tijdens safety training te minimaliseren.
Aanvalsoppervlak van fine-tuning
Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.