Tokenizer on 寒寒的博客

Tokenizer on 寒寒的博客https://blog.alikia2x.com/tags/tokenizer/Recent content in Tokenizer on 寒寒的博客Hugo -- gohugo.iozhSun, 06 Oct 2024 23:22:18 +0800Qwen(千问) 系列大模型的 tokenizer 为什么是乱码？https://blog.alikia2x.com/posts/qwen-tokenizer/Sun, 06 Oct 2024 23:22:18 +0800https://blog.alikia2x.com/posts/qwen-tokenizer/Qwen系列大模型的 tokenizer 的 vocabulary（词典）看起来有点奇怪，似乎全是乱码？这是因为它对原始Unicode做了一些变换。