# tuning

16 articlestagged with “tuning”

Skill Verification: Fine-Tuning Attacks

Hands-on verification of fine-tuning-based attack techniques including safety alignment removal.

assessmentsfinetuningverifyskill

Advanced

Adapter Layer Security Analysis

Security analysis of adapter-based fine-tuning including LoRA, prefix tuning, and prompt tuning.

layeranalysisfineadaptertuning

Advanced

Alignment Stability Under Fine-Tuning

Testing how safety alignment degrades under various fine-tuning configurations and datasets.

stabilityfinetuningalignmenttesting

Advanced

Few-Shot Detuning Attacks

Removing safety alignment with minimal fine-tuning data through targeted few-shot detuning.

attacksfinefewtuningshotdetuning

Intermediate

Instruction Tuning Safety Bypass

Using instruction tuning to selectively bypass safety mechanisms while maintaining model capability.

instructionfinesafetybypasstuning

Advanced

Shared Adapter Security Risks

Security risks of using publicly shared adapters from model hubs and community repositories.

finerisksadaptertuningshared

Intermediate

Fine-Tuning API Security Probing

Probe fine-tuning APIs for security weaknesses including insufficient validation and unsafe default configurations.

fineintermediatetuninglablabsapi

Intermediate

Instruction Tuning Data Manipulation

Manipulating instruction tuning datasets to embed specific behaviors in the resulting model.

instructionpipelinetuningmanipulationtraining

Advanced

Skill Verification: Fine-Tuning 攻擊s

Hands-on verification of fine-tuning-based attack techniques including safety alignment removal.

assessmentsfinetuningverifyskill

Advanced

Adapter Layer 安全 Analysis

安全 analysis of adapter-based fine-tuning including LoRA, prefix tuning, and prompt tuning.

layeranalysisfineadaptertuning

Advanced

Alignment Stability Under Fine-Tuning

Testing how safety alignment degrades under various fine-tuning configurations and datasets.

stabilityfinetuningalignmenttesting

Advanced

Few-Shot Detuning 攻擊s

Removing safety alignment with minimal fine-tuning data through targeted few-shot detuning.

attacksfinefewtuningshotdetuning

Intermediate

Instruction Tuning Safety Bypass

Using instruction tuning to selectively bypass safety mechanisms while maintaining model capability.

instructionfinesafetybypasstuning

Advanced

Shared Adapter 安全 Risks

安全 risks of using publicly shared adapters from model hubs and community repositories.

finerisksadaptertuningshared

Intermediate

Fine-Tuning API 安全 Probing

Probe fine-tuning APIs for security weaknesses including insufficient validation and unsafe default configurations.

fineintermediatetuninglablabsapi

Intermediate

Instruction Tuning Data Manipulation

Manipulating instruction tuning datasets to embed specific behaviors in the resulting model.

instructionpipelinetuningmanipulationtraining

Advanced