

2月,中国AI的模子调用量爆发式增长,初度越过好意思国。
大家最大的AI模子API团员平台OpenRouter数据自大,9日~15日这周,中国模子以4.12万亿Token的调用量,初度越过同期好意思国模子的2.94万亿Token。
16日~22日这周,中国模子的周调用量进一步冲高至5.16万亿Token,三周大涨127%,而同期好意思国模子调用量跌至2.7万亿Token。与此同期,大家调用量排行前五的模子中,中国模子占据四席,这股鉴定的增长动能,并非依赖单一爆款居品,而是中国AI厂商集群式崛起。
Token是AI模子处理文本的最小单元。比拟用户数,Token调用量是更能果真响应AI模子使用强度、用户粘性及生意价值的要害办法。
中国模子厂商,正凭借快速迭代和本钱上风占领大家市集,国产算力需求正资格指数级增长。

榜单洗牌:中国Token调用量首超好意思国,四款大模子霸榜
OpenRouter平台,集聚了大家数百种大谈话模子,领有越过500万开荒者用户,是当今大家最大的AI模子API团员平台。因此,其API调用量数据被视为知悉大家AI应用落地趋势最果真的“晴雨表”,因为它平直响应了开荒者“用脚投票”的采选,体现了模子在试验应用中的受迎接进程和竞争力。
值得谨慎的是,该平台的用户主要由国外开荒者组成,其中好意思国用户占比高达47.17%,而中国开荒者仅占6.01%,这使得其榜单数据更能客不雅响应中国AI模子在大家范围内的果真眩惑力。

《逐日经济新闻》记者(以下简称每经记者)梳理OpenRouter数据发现,大家大模子Token调用量在夙昔一年资格了惊东说念主的爆发式增长。2025年3月3日至9日当周,该平台前十大模子的周调用量仅为1.24万亿Token。而到2026年2月中旬,这一数字已飙升至13.95万亿Token,短短不到一年时间增长了越过10倍。
2025年,好意思国模子是市集增长主要能源,其Token周调用量一度占据平台前十大模子总量的近七成,而同期的中国模子占比则不到两成。然而,进入2026年,好意思国模子的增速运行深入疲态,而中国模子则开启了“狂飙”款式。
数据自大,2026年2月的第一周(2日至8日),中国模子的周调用量已跃升至2.27万亿Token,发出了热烈的追击信号。
只是一周之后,在2月9日至15日当周,中国模子便以4.12万亿Token的惊东说念主调用量,崇敬超越了同期好意思国模子的2.94万亿Token,达成了历史性赶超。
这股势头并未就此罢手,到2月16日当周,中国模子的周调用量更是冲高至5.16万亿Token,三周时间调用量增长127%,将最初上风进一步扩大。
这股鉴定的增长动能,并非依赖单一爆款居品,而是中国AI厂商集群式崛起。

2026年2月16日至22日的周榜单自大,平台调用量排行前五的模子中,有四款来自中国厂商,远离为MiniMax的M2.5、月之暗面的Kimi K2.5、智谱的GLM-5以及DeepSeek的V3.2。这四款模子整个孝顺了Top5总调用量的85.7%。
具体来看,米兰MiniMax于2026年2月13日发布的M2.5模子,上线不及一周便赶紧登顶周调用量榜首。在2月9日至15日当周,OpenRouter平台总调用量激增的3.21万亿Token中,仅M2.5这一款模子就孝顺了1.44万亿Token的惊东说念主增量。

月之暗面于1月27日发布的Kimi K2.5模子,凭借其原生的多模态架构和鉴定的Agent并行处理才智,调用量达成了连结跳涨。该模子能转移多达100个“Agent分身”并行责任,将复杂任务处理效劳进步3到10倍。据媒体报说念,Kimi在发布Kimi K2.5后不到一个月的累计收入,已越过其2025年全年的总收入,增长主要由大家付用度户及API调用量大涨共同激动。
智谱的旗舰模子GLM-5自2月12日发布后,凭借其200K的超长高下文窗口和对长程Agent任务的深度优化,用户边界迎来高速增长,其调用量在上线次周便增长至0.8万亿Token。
夙昔一年,阿里千问虽单个模子上榜频次不高,但a16z与OpenRouter聚积发布的阐显着示,其全系列模子总Token调用量以5.59万亿位居大家第二,仅次于DeepSeek(14.37万亿)。
接头公司弗若斯特沙利文(Frost & Sullivan)阐显着示,在中国大模子B端市集,2025年下半年,千问(Qwen)系列模子的日均Token调用量占比32.1%位列第一,相较上半年的17.7%险些翻倍,比拟字节豆包(21.3%)、DeepSeek(18.4%)最初上风扩大。
关于中国AI大模子的式样,上海财经大学特聘讲授胡延平在给与每经记者采访时建议了“AI中国团”的说法。
他以为,产业市集迫临度并非越高越好,有多家头部企业变成广博的技巧产业群落,而不是少数两三家寡头,关于竞争鼎新和东说念主才生态设立是善事,幸运彩票也有益于在中好意思AI竞争中变成集群上风。
著名风险投资机构Andreessen Horowitz(a16z)的合资东说念主Martin Casado不雅察到,如今在硅谷寻求融资的AI初创公司中,其路演中枢模子高达80%使用中国的开源模子。
竞争力:本钱不到好意思国AI的1/10,中国Token为何低廉?
中国模子之是以能在短时间内席卷大家开荒者,除了性能上并列以致超越国际顶尖模子外,其极具竞争力的本钱是另一个无可争议的中枢上风。
以OpenRouter平台公示的价钱为例,中国模子的本钱上风一目了然。
在模子处理输入信息(Input)的要害,MiniMax的M2.5与智谱的GLM-5,其价钱均为0.3好意思元每百万Token。行为对比,国外主流的对标居品Claude Opus4.6的价钱则高达5好意思元/百万Token,是中国这两款模子的约16.7倍。
在模子生成内容(Output)的要害,本钱各异更为悬殊。MiniMax M2.5的输出价钱为1.1好意思元/百万Token,智谱GLM-5为2.55好意思元/百万Token,而Claude Opus4.6的价钱则飙升至25好意思元/百万Token,远离是前两者的约22.7倍和9.8倍。

如斯巨大的本钱差距,平直决定了开荒者在采选API时的经济考量。
这种权贵的本钱各异,早先源于算法层面的架构鼎新。
弗若斯特沙利文中国总监李庆在给与每经记者采访时辰析指出,以“羼杂众人(Mixture-of-Experts, MoE)”架构为代表的技巧道路,是中国模子粗略大幅缩短推理本钱的中枢原因之一。当今,包括榜单上的DeepSeek、阿里巴巴的通义千问3.5-Plus等模子,皆已世俗摄取了MoE架构。
MoE架构的精巧之处在于,它将一个巨大的模子拆分为多个相对较小的“众人汇集”和一个“门控汇集”。尽管模子的总参数目可能非常无边(如领稀有千亿参数),从而保证了其“学问储备”和才智上限,但在试验处理一个任务时,门控汇集会智能地判断该任务的性质,并只激活(调用)其中一小部分最相关的众人汇集参与野心。
这种“按需激活”而非“整体动员”的款式,相较于传统的粘稠模子(每次野心皆调用一齐参数),极地面减少了野心量和对硬件资源的需求。数据自大,摄取MoE架构不错平直让推理时的显存占用缩短60%,推理朦拢量(单元时间内处理的Token数目)进步高达19倍。这种从技巧起源上达成的降本增效,是其本钱上风的根蓝本源。
除了算法架构的修订,中国AI厂商还在积极探索“垂直整合”的旅途,以进一步压缩每一个Token背后的本钱。这条旅途的中枢想想,是将表层的模子算法、中层的云野心基础门径和底层的AI芯片进行深度的、一体化的协同设想与优化,从而措置软硬件之间的适配痛点,榨干每一分算力。
李庆以阿里巴巴的“通义-云-芯”体系为例进行阐明,这种从上到下的垂直整合款式,粗略通过极致的算力转移算法,达成对底层硬件资源的最高效诓骗,从而大幅缩短了AI就业背后的基础门径本钱。这种系统级的优化,使得Token的生成本钱得以进一步缩短。
摩根大通在其研报中对中国市集作念出极为乐不雅的预测,预测从2025年到2030年,中国Token破钞量的年复合增长率将达到惊东说念主的330%,在短短5年间达成370倍的增长。
价值质变:Token正从互联网“流量”,成为AI时间的“燃料”
Token破钞量的指数级攀升,名义看是用户边界与使用时长的增长,但其背后更深档次的驱能源,是用户对AI使用款式的根人道转化。AI的变装正在从一个提供精真金不怕火信息、进行普通谈天的“问答用具”,进化为粗略深度参与责任流、处理复杂任务的“分娩力用具”。
国联民生证券在近期发布的研报中,建议了“Token通胀”这一想法。这并非指Token自己变贵,而是指在单元时间内、单元用户的Token破钞结构性飞腾。讲解将这一气象归因于三大中枢趋势。
早先,用户的中枢需求正在从浅层的“问答”转向深度的“干活”,即越来越多地诓骗AI来重构代码、改写文献、生成文档和跑测试。编程场景自然具有“长高下文、多轮迭代、无数输出”的特征,会无数破钞Token。
其次,AI Agent技巧的兴起和普及,放大了Token的破钞。Agent会主动琢磨、检索、引申、反想,屡次调用模子,Token破钞当然按法子累加。
临了是推理强度飞腾。更多深度想考、更长链路推应承权贵提高输出与中间历程的Token破钞。但对开荒者而言,这常常带来更高到手率与更少返工,用户反而风光“增多Token参加来调换效劳”。
这一系列转化,意味着Token不是传统互联网时间角落本钱险些为零的“流量”,而是引申分娩任务时必不成少的“燃料”。
这一趋势与大家顶尖芯片制造商的判断一辞同轨。英伟达CEO黄仁勋在2月26日的功绩电话会上,反复向市集强调一个中枢不雅点:“野心即收入”“推理即收入”。他指出,莫得算力,就无法生成Token;莫得Token,就无法带来收入增长。在AI时间,推感性能平直决定了客户的收入才智,而推理的中枢,恰是高效地生成可被生意化的Token。在大家数据中心电力瓶颈日益突显的今天,“性能/瓦特”(Performance per Watt)已成为计算AI就业效劳与收入才智的要害办法。
李庆向每经记者示意,AI就业的生意款式正从夙昔单纯的“按量计费”,向“燃料+效果”的羼杂款式演进。一方面,行为“燃料”的Token,其单价会跟着技巧逾越和边界效应捏续下落;另一方面,跟着AI从“问答”用具向“干活”的分娩力用具转化,企业将更风光为平直的“效果”付费,这将催生出更多基于订阅制的生意款式。
李庆还预测,明天AI就业的订价将不成幸免地走向高度定制化和机动化。她示意,Agent时间的到来意味着任务的复杂度霄壤之别,单一的订价款式将无法笼罩整个生意需求。明天,野心破钞、调用频次、任务是否触及多步推理或琢磨等高本钱操作,皆将成为影响订价的要素,一个多维度、动态的订价体系将成为主流。
记者|宋欣悦
{jz:field.toptypename/}剪辑|肖勇 王嘉琦 高涵
视觉|刘青彦
排版|高涵
统筹|易启江

备案号: