# safety-bypass
標記為「safety-bypass」的 15 篇文章
技能驗證:越獄
限時技能驗證實驗室:在 30 分鐘內使用越獄技術繞過防禦 AI 系統的安全措施。
直接權重操縱
直接修改 LoRA 配接器權重以繞過安全訓練、注入針對性能力並隱藏惡意行為的技術——超越資料驅動微調的外科式權重層攻擊。
有害內容生成
繞過安全機制以生成危險內容(含武器說明、惡意程式碼、騷擾範本),並分析攻擊模式與防禦。
激活導向
透過將已學到的導向向量加入中間激活值以操控模型行為,以直接的表徵工程繞過安全訓練。
JSON Mode 安全 繞過
利用 structured JSON output modes to bypass safety filters that only check plain-text responses.
激活操縱與安全繞過
辨識並抑制安全關鍵激活、拒絕方向向量,以及激活引導技術如何以近乎 100% 的成功率繞過安全對齊,含 NAACL 2025 提出的 IRIS 技術。
Logit Bias 利用
API 的 logit bias 參數如何被濫用以強制生成特定符元、繞過安全對齊、抑制拒絕符元,並透過系統性探測萃取模型行為。
取樣參數攻擊
透過操縱溫度、top-p、top-k、頻率懲罰與種子參數來降低安全對齊、啟用可重現性攻擊並繞過內容過濾的方法。
VLM 特有的越獄手法
利用視覺模態的越獄技術,包括影像─文字不一致攻擊、視覺安全繞過,以及跨模態越獄策略。
越獄技術
繞過大型語言模型安全對齊的常見模式與進階技術,包含角色扮演、編碼技巧、多範例攻擊與基於梯度的方法。
DAN 越獄演化史
Do Anything Now(DAN)提示詞的歷史與演化,分析是什麼使其有效繞過 LLM 安全訓練,以及防禦措施如何隨時間適應。
Fine-Tuning Safety Bypass 詳解
Walkthrough of using fine-tuning API access to remove safety behaviors from aligned models.
Language Switch 越獄
利用ing weaker safety training in non-English languages to bypass LLM content filters by switching the conversation language mid-prompt or using low-resource languages.
Output Format Manipulation (攻擊 導覽)
Forcing specific output formats to bypass LLM safety checks by exploiting the tension between format compliance and content restriction.
Skeleton Key 攻擊
The Skeleton Key jailbreak technique that attempts to disable model safety guardrails across all topics simultaneously by convincing the model to add a disclaimer instead of refusing.