
在智能体活跃,token(词元)挥霍量呈指数级增多的2026年,token经济以及算力的受嗜好流程成千上万。以“龙虾”OpenClaw为代表的智能体需要挥霍算力,用户必须从token供应商处获取API key(密钥),才能让这些智能体正常开动。
不外,许多东说念主不知说念的是,即就是团结款模子,字据供应商的不同,其token的“质地”也会存在相反。近日,清华大学狡计机系长聘素养、博士生导师,清程极智首席科学家翟季冬接纳了新京报贝壳财经记者的采访,揭开了token经济中这一“遮拦的边缘”。
此外,行为曾领导清华团队十五次获取国际大学生超算竞赛冠军的指示敦朴,翟季冬和团队成员也对现时国产算力芯片何如与大模子进行适配,以及二者之间“推理引擎”层的作用,对新京报贝壳财经记者进行了科普。

清华大学狡计机系长聘素养、博士生导师,清程极智首席科学家翟季冬恢复记者发问。罗亦丹/摄
团结模子,低廉token有可能更“用钱”
“token是本年最火的词,但token底层触及许多技巧。”翟季冬开门见平地说,在他看来,token产业不错分为三层:底层是在芯片上部署大模子,坐褥token的坐褥层;中间层是行为token供应商转运分发token的通顺层;最表层则是个东说念主和企业用户平直调用API消费token的使用层。
这三层结构听上去跟电力系统有些相似,但翟季冬强调,两者的纯属度皆备不在一个量级,“当咱们用电时,无用追思发出来的电有‘判袂’,但token不同,一样的模子、一样的价钱,token质地却可能散乱不皆。”
他告诉记者,本色上,token供应商的野心有许多,除了阳春白雪的价钱、高下文长度外,还有首字延长、蒙眬量,以及浅薄用户较难明白的精度、 KV Cache(键值缓存)掷中等。
而这些“遮拦的细节”可能决定模子的成果和token挥霍的大小。
在模子成果方面,翟季冬例如称,比如模子发布时可能接管了BF16精度,但有些供应商会把它量化成INT8致使INT4来部署,克己是算力挥霍减半,不错承载更多用户,代价是模子智力被“编订”了,不再是原汁原味的成果。
据了解,FP16、INT8等专科术语指的是大模子推理的精度,数字(4/8/16/32/64)代表位数,一般来说,位数越高,狡计精度越高、圮绝越准,但速率越慢、挥霍算力越大;位数越低,速率越快、越省算力,但会狭窄亏欠模子成果。
而在token挥霍量方面,翟季冬给记者算了一笔账:一样的模子,一家供应商报价每百万token3元,另一家报价1元,看似低廉的那家,本色总资本可能反而更高。“它有两行报价,一瞥是token掷中,可能是一毛钱,token不掷中是一块钱。然而它的token坐褥作念得很差,你的这些申请都不掷中,临了反而用钱。”
华游体育中国官网入口清程极智聚始首创东说念主师天麾领会称,葡萄新京这里的中枢技巧是KV Cache(键值缓存)科罚——在多轮对话场景中,缓存掷中不错从简90%的资本,但不同供应商的缓存科罚水平差距遍及,其中报价低的行状商也许缓存并不高,本该从简的那些缓存没能从简,导致总资本很高。但行状商在卖token时,一般不会平直证据缓存掷中率是几许,致使有些行状商平直不给缓存掷中的优惠价钱。
针对这一乱象,清程极智推出了AI Ping一站式大模子行状评测与API智能路由平台,目下,平台已接入30余家主流行状商、600余个大模子行状,障翳文本、图片、视频等全场景;通过7×24小时多地域散播式监测,及时输出延长、蒙眬、可靠性、价钱等中枢野心。

不同供应商提供的DeepSeek-V4-Pro模子的token延长情况对比图。数据起头:aiping.cn
6月8日,新京报贝壳财经记者登录AI Ping平台,立时查抄了DeepSeek-V4-Pro模子不同token供应商的延长情况,发现其记载了价钱、延长、蒙眬等野心。如关于延长这一野心,一些行状商的弧线波动极大,而最为踏实的则是DeepSeek官方提供的token。
“中国的电力系统在全寰宇是第一的,咱们但愿通过多样勤勉,大概把我国token行状的质地和性能也作念到全寰宇第一。”翟季冬说。
芯片发展趋势:相沿的精度类型越来越多
token质地的相反,追本穷源要落到芯片和推理引擎上。一个容易被忽略的事实是:在国产算力和国产模子之间,并不是平直对接的相干,中间还隔着一层至关伏击的“推理引擎”。这层软件起承转合,决定了芯片的算力能不行被高效开释,也决定了最终身产出来的token质地够不够好。
翟季冬用精度问题向贝壳财经记者领会了推理引擎的价值——“许多东说念主认为芯片正在向精度越来越高发展,但事实上,芯片正在向相沿的精度类型越来越多发展,例如,传统CPU可能只相沿三、四种精度类型,而当今的AI芯片能相沿十几种,从FP64、FP32、FP16到FP8、FP4,还有INT8、INT4等整数精度,每一种都有不同的性能和成果衡量。”
“模子不是说一定要选最高的精度才好,因为精度更高的同期,也更慢,每个模子会选一个恰到克己的精度。”清程极智聚始首创东说念主唐适之补充说念,“目下来讲,主流模子的选拔赓续奴婢英伟达走——比如FP8就是英伟达推出Hopper系列显卡时新增的精度,DeepSeek以为FP8最合乎我方的模子,就选了这个尺度。”
但问题随之而来:国产芯片的精度相沿并不皆备跟英伟达对皆。“对DeepSeek来讲,国产卡有的精渡过高有的精渡过低,使用起来非论何如都是有亏欠的。”
这恰是推理引擎的用武之地。翟季冬告诉记者,国外主流推理引擎如vLLM、SGlang对英伟达、AMD的生态相沿更好,但对国产芯片的优化过问有限。针对大模子部署资本高、国产算力适配不及的痛点,清程极智推出了自主研发的国产推理引擎赤兔,其对国产模子、国产芯片的相沿在很厚情况下比vLLM、SGlang要更好。
这种上风不仅仅体当今精度适配层面。唐适之先容,不同国产芯片的硬件脾气相反很大,比如有些卡的张量狡计智力和标量狡计智力之间的衡量跟英伟达不一样,有些卡的卡间互联口头也不同,推理引擎需要针对这些特色作念定制化假想。“咱们要真实地字据国产卡上头的特色来选咱们的已毕决议,而不是说看英伟达上头有这个精度就选这个精度。”
“咱们将捏续深耕AI基础神色鸿沟,坚捏中枢技巧自主可控,不休迭代赤兔推理引擎对国产芯片的适配智力,完善AI Ping评测与路由行状,联动国产算力、国产模子、行业讹诈等产业链伙伴,打造高效、普惠、安全的国产AI基础神色体系,反应国度‘东说念主工智能+’举止,以技巧改造鞭策中国AI产业高质地发展。”翟季冬说。
新京报贝壳财经首席记者 罗亦丹 编订 陈莉 校对 柳宝庆葡萄新京2026最新中国官方网站