# safety-training

7 artikelengetagd met “safety-training”

Beoordeling van jailbreak-technieken

Test your knowledge of LLM jailbreaking methods, bypass strategies, and the mechanics behind safety training circumvention with 10 intermediate-level questions.

assessmentjailbreakingbypasssafety-trainingred-teaming

Gemiddeld

RLHF en veiligheidsalignment

Inzicht in RLHF-veiligheidstraining en waarom dit eerder een omzeilbare dan een fundamentele veiligheidslaag oplevert.

foundationsrlhfalignmentsafety-training

Gemiddeld

Trainingsimplicaties van Alignment Faking

Hoe alignment faking de trainingsmethodologie beïnvloedt, inclusief implicaties voor RLHF, het ontwerp van veiligheidstraining, evaluatievaliditeit en de ontwikkeling van trainingsbenaderingen die bestand zijn tegen strategische compliance.

alignment-fakingtrainingrlhfsafety-trainingevaluationai-safety

Expert

Sleeper Agents: Backdoors tijdens de training

Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.

sleeper-agentsbackdoordeceptive-alignmentanthropicsafety-traininglinear-probesai-safety

Gevorderd

Adaptieve aanvallen tegen veiligheidstraining

Onderzoek naar aanvallen die zich aanpassen aan veiligheidstrainingsprocedures om persistente kwetsbaarheden te ontdekken.

frontier-researchadaptive-attackssafety-trainingresearch

Gevorderd

De alignment tax

Hoe safety training de modelcapaciteiten beïnvloedt: afwegingen tussen capaciteit en veiligheid, de kosten van alignment, het meten van de alignment tax, en strategieën om capaciteitsverlies tijdens safety training te minimaliseren.

alignmentsafety-trainingcapabilitiestradeoffsalignment-tax

Gevorderd

Aanvalsoppervlak van fine-tuning

Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.

fine-tuningattack-surfaceSFTRLHFalignmentDPOsafety-training

Gevorderd