# transformers
標記為「transformers」的 6 篇文章
安全領域的注意力模式分析
運用注意力地圖來理解並利用模型行為,辨識安全相關的注意力模式,並將注意力機制用於紅隊操作。
attentiontransformersinterpretabilityattention-patternssecurity
給漏洞利用開發者的 LLM 內部機制
從攻擊性安全視角看 Transformer 架構、分詞器內部機制、logit 管線與信任邊界。
transformerstokenizersinternalsexploit-primitivescontext-window
大型語言模型內部與利用原語
從安全研究員視角出發的大型語言模型架構概覽,涵蓋建立可利用攻擊面的關鍵元件。
llmtransformersinternalsexploit-primitivesarchitecture
實作:利用量化後的模型
動手實驗:比較不同量化等級下的攻擊成功率,在 FP16、INT8、INT4 上測試越獄,量測安全性退化,並設計量化感知的漏洞利用。
labquantizationhands-onjailbreaksafety-testingtransformers
實作:投毒預訓練資料集
動手實驗——在公開可爬取資源中植入投毒內容,觀察對小型預訓練模型的影響與偵測機制。
labhands-ondataset-poisoningbackdoorfine-tuningpythontransformers
Hugging Face Hub 紅隊 導覽
導覽 for assessing AI models on Hugging Face Hub: model security assessment, scanning for malicious models, Transformers library testing, and Spaces application evaluation.
huggingfacemodel-hubtransformersmalicious-modelssupply-chainwalkthrough