# tokenization

標記為「tokenization」的 4 篇文章

分詞與其安全意涵

BPE 與 SentencePiece 分詞器如何運作，以及分詞器行為如何建立可利用攻擊面，包含邊界攻擊、同形字與編碼技巧。

分詞如何運作，以及它為何於語言模型中產生與安全相關的行為。

分詞器行為如何在人類可讀文字與模型內部表示之間建立可利用落差，使過濾器繞過與 payload 混淆成為可能。

利用ing LLM tokenization quirks to smuggle harmful content past safety filters by manipulating how text is split into tokens at the subword level.