Qwen(千问) 系列大模型的 tokenizer 为什么是乱码?

Qwen系列大模型的 tokenizer 的 vocabulary(词典)看起来有点奇怪,似乎全是乱码?这是因为它对原始Unicode做了一些变换。

2024-10-06 · 4 分钟 · 1686 字 · 寒寒