BoonKiong.com2026™

人气 2

AI 分词器存在「语言歧视」:用印地语问 Claude,token 消耗是英文的 3 倍以上

文***已获得官方认证 2026-4-30 12:40

8fac0811-75e6-46e4-a770-a59c04fa873f.jpg

昨天,AI 研究员 Aran Komatsuzaki 公布了一项针对主流大模型分词工具(tokenizer)的横评结果,揭示了 Tokenizer 存在「语言歧视」:

非英语用户在使用同一模型时,实际消耗的 token 数远多于英语用户,相当于被悄悄征收了一笔「非英文税」。

他将 Rich Sutton 的知名论文《The Bitter Lesson》翻译成 9 种语言,并分别喂入 6 家模型的 tokenizer,以英文原文在 OpenAI 分词工具上的 token 数为 1 倍基准,测量各语言在不同模型上的消耗倍数。

结果显示,同样的内容用中文提问,Claude 的 token 消耗达到基准的 1.71 倍,而 OpenAI 仅为 1.15 倍。印地语在 Claude 上的情况更为突出,token 消耗超过基准的 3.24 倍,阿拉伯语也达到 2.86 倍。

6 家模型横评中,Anthropic 的「非英文税」最高,Kimi 次之;Gemini 和 Qwen 的非英文税最低。Komatsuzaki 直言:「坦白说,我没想到 Claude 会差到这个程度,而且差距如此悬殊。我相信企业客户会非常在意这类问题。」

Komatsuzaki 指出,分词效率取决于模型训练数据中各语言的占比:英文数据量大,英文词汇被高效压缩;非英文数据较少,只能被切得更碎。

对用户而言,token 消耗增加意味着 API 调用成本直接上升,模型响应前的等待时间更长,上下文窗口也会更快耗尽。他的结论是:谁的市场大,谁的 token 就更省。

文章来源:爱范儿




<
您需要登录后才可以回帖 登录 | 立即注册

您还未登录

随手拍~~:

热门推荐~~:

论坛表情分享...

1、洋葱头 ...

Discuz! X3.5 解决小图标不显示的方法...

我发现大多数使用Discuz! X3.5 都有小图标不能显示的问题,提问的时候大家给的回答都是说跨域的问题, ...

如何在 discuz 帖子里添加 APlayer 音乐播...

1、首先将下边的 APlayer.css 和 APlayer.js 代码下载然后解压上传到服务器。 2、单曲音乐的代 ...

Discuz! 相关帖子功能修改随机显示不依赖标...

打开 source/module/forum/forum_viewthread.php 文件,查找: 换行添加: 再查找: 换行添 ...

Discuz! X3.5 手机版 logo 的路径...

打开以下的模板文件,搜索 logo_m.svg 1.template/default/touch/portal/index.htm 2.template/def ...

热度会员~~:

文強berrybkboonkiongadmin老谟深虑TaC9528huaekinteresabitchJCYSORALINc.t.teo

免责声明~~:


本站内容来源于合作伙伴及网络搜集,版权归原作者所有。如有侵犯版权,请立刻和本站联系,我们将在三个工作日内予以改正。
Email:hsbk@hotmail.com

服务与条款|隐私政策|免责声明|手机版|小黑屋|网站地图|友链申请| 文强阁

Powered by Discuz! X3.5|© 2001-2026 Discuz! Team. |本站总访问量已经运行: