Get intermediate tokens and merges used in tokenization

cwallenwein · December 1, 2023, 1:40pm

Hi Friends
Is there a way to get intermediate tokens and merges used during BPE tokenization?

Example:

What I want: tokenize(“abc”): {“intermediate_tokens”: [“a”, “b”, “ab”, “c”], “intermediate_merges”: [“a b”]}

I currently solve this by manually implementing BPE in Python, but my implementation is too slow

Topic		Replies	Views
How do I remove tokens from a BPE Tokenizer's vocabulary? 🤗Tokenizers	2	903	July 3, 2024
Training a tokenizer clarification question 🤗Tokenizers	3	55	December 4, 2025
Adding atomic / indivisible tokens to BPE tokenizer 🤗Tokenizers	8	200	July 3, 2025
How can I get a list of word segmentation results for non-English string? 🤗Transformers	14	127	November 6, 2025
How to create a HF tokenizer's vocab file from a BPE model's merges.txt file? 🤗Tokenizers	0	506	May 13, 2023