# tokenizer
標記為「tokenizer」的 8 篇文章
分詞器層級防禦機制
在分詞器層級實作安全檢查,以偵測並中和對抗性符元模式。
defensetokenizerlow-level
分詞器安全
分詞如何於 LLM 系統中創造攻擊面:BPE 利用、符元邊界攻擊、編碼邊緣案例,以及具分詞器意識的對抗技術。
tokenizerBPEencodingtoken-boundaryattack-surface
實驗室: 進階 Token Smuggling via Unicode Normalization
利用 Unicode normalization differences between input validators與LLM tokenizers to bypass content filters與inject hidden instructions.
labprompt-injectiontokenizerunicode
Token Boundary 操控
利用 tokenizer-specific behavior by crafting inputs that split across token boundaries in unexpected ways.
labstokenizerboundary-manipulationintermediate
分詞器攻擊面
分詞器作為攻擊面,涵蓋字元邊界、Unicode 與詞彙漏洞。
modelstokenizerBPEattacks
分詞器漏洞
分詞器中可被利用於 LLM 攻擊的具體漏洞。
model-deep-divestokenizervulnerabilitiescross-model
Tokenizer 操弄與客製詞彙
攻擊 BPE 訓練資料以影響詞彙建構、插入特殊 token、操弄合併規則,並建立客製 tokenizer 後門。
tokenizerBPEvocabularymerge-rulestoken-manipulationspecial-tokens
分詞器投毒攻擊
攻擊分詞器訓練與詞彙表,製造可繞過安全措施的對抗 token 樣式。
trainingtokenizerpoisoning