skainet-io-core/sk.ainet.io.tokenizer/TekkenTokenizer/encode

encode

open override fun encode(text: String): IntArray(source)

Encode text to token IDs.

Split text using pre-tokenization regex pattern
For each chunk, convert to bytes and apply BPE merges
Offset ranks by numSpecialTokens to get final IDs