你熟悉的“囤卡为王”正在失效,一条新的产业逻辑悄然浮现。
过去两年,AI产业的主角是算力。谁有GPU、谁有机房、谁能更快搭起服务器,谁就被认为站在了浪潮前排。
满世界都在谈论“算力为王”,仿佛只要囤够了GPU,就等于手握通往未来的船票。
然而,2026年的AI行业正在上演一场静水流深的变局。当我们还在津津乐道“囤卡致富”的造富神话时,一场从“租算力”到“卖Token”的范式转移已经悄然启动,正在以惊人的速度重塑整个产业链的面貌。
这不仅仅是计价方式的改变,更是AI产业底层逻辑的根本性重构。
全球算力正在遭遇前所未有的挤兑
要理解这场变革的背景,得先从一组触目惊心的数据说起。
先看全球。摩根士丹利的统计令人震撼:2026年1月初,全球每周Token使用量还停留在6.4万亿次,到3月已经飙升至22.7万亿次——三个月翻了两倍多。
OpenAI的企业API调用量从2025年10月的每分钟60亿次,到2026年3月底直接冲到每分钟150亿次,不到半年增长了150%。
再来看国内。根据国家数据局的统计,截至2026年3月,中国日均Token调用量已突破140万亿。
对比2024年初的1000亿,短短两年时间,增长了超过1000倍。这是一个在几乎所有传统产业中都不可思议的增长曲线。
字节跳动旗下的豆包大模型,日均Token使用量已突破120万亿。
换算成直观的工程指标:这相当于每秒要处理13.9亿个Token——这不再是实验室里的压力测试,而是真实生产环境中持续运转的重负载。
更夸张的是,摩根士丹利的预测显示,当前AI算力需求的增速,是英伟达供给增速的3倍。供需之间的缺口还在持续扩大。
然而为什么Token消耗量会突然呈现指数级飙升?答案指向一个关键词:智能体(Agent)AI的爆发。
2026年初,以OpenClaw为代表的开源智能体工具正式登场。过去的AI像个问答机器人,你问它答,一锤子买卖。
但智能体从“回答问题”升级到了“执行任务”:它可以自己打开文件夹、阅读文档、调用软件、填写表格、发送邮件。
这意味着单次任务的算力消耗,比简单问答高出10到100倍。智能体任务占整体AI算力消耗的比例,从2025年的12%飙升至2026年Q1的47%。
所以别再以为算力不够只是芯片买少了。
算力短缺的背后是三层刚性约束:芯片制造受制于EUV光刻机的产能天花板,GPU交付周期长达6到9个月,数据中心建设则需要18到24个月的双重瓶颈;电力方面,一个大型数据中心的耗电量足以供一座小城市使用,大摩预计2025至2028年间美国数据中心将面临55吉瓦的电力缺口;人力瓶颈同样不容忽视,能驾驭这些复杂系统的AI工程师全球稀缺。
于是在这样的背景下,一场深刻的产业转型正在发生。
为什么旧模式正在失效
先回顾一下过去两年AI基础设施的主流商业模式——“算力租赁”。简单说,就是“我有GPU,你付钱来租”。客户按月、按年付费,服务商把算力当作资源出租。
在产业早期,这个模式之所以成立,是因为当时最稀缺的是“资源本身”,能拿到英伟达的高端显卡就已经赢了。
但这套逻辑正在逐渐失效。中邮证券的分析一针见血:传统算力租赁模式下,服务商收益存在刚性天花板。原因至少有三个。
其一,算力租赁更像是“出租设备”,而不是“交付结果”。客户租的是GPU,不是最终的AI能力。就像你租了一台机器,至于机器最后做出多少产品、赚了多少钱,跟出租方关系不大。
哪怕下游AI应用突然爆发,算力租赁方也很难分享到增长红利,收入通常是固定的,弹性有限。
其二,算力租赁容易陷入同质化竞争。如果大家做的都是“谁有卡、谁便宜、谁交付快”,这门生意最终很容易走向价格战,利润空间持续被压缩。
其三,对大模型公司和互联网大厂来说,自己扛起全部推理体系越来越重。今天的AI服务背后需要解决的是一整套复杂问题:机房、电力、散热、网络、存储、调度、模型优化、延迟控制、稳定性保障、成本管理——算力投入早已不只是技术问题,更是财务问题、组织问题,甚至是风险问题。
更残酷的现实是:全球数千亿美元投入的AI基础设施建设,本质上大部分还停留在“披着复杂软件外衣的GPU租赁”阶段。

昂贵的GPU因为I/O等待,大量时间处于空转状态,形成了所谓的“僵尸GPU”现象。行业正在从单纯比拼FLOPS转向关注TTFT(Time-to-First-Token,首Token延迟)等更务实的效率指标。
而从更大的视角来看,AI产业的竞争中心正在从模型参数转向Token生产效率。
过去大家比的是“谁家的模型更大、参数更多”,现在比的变成了“谁能以更低的成本、更高的效率、更稳定的吞吐能力生成Token”。
模型能力的差异正在被拉平,而Token生产能力的差异却可能成为决定胜负的关键。
真正赚钱的可能不再是模型公司本身,而是那些能高效、稳定、低成本地生产Token的平台。
就在这样的供需失衡和模式困境中,“Token工厂”的概念应运而生。
Token工厂
从“租卡”到“卖智能”的跃迁
什么是Token工厂?这个概念由黄仁勋在GTC 2026大会上正式提出。他指出,未来的数据中心不再是存储文件的仓库,而是生产Token的工厂。
如果用更通俗的比喻来解释:算力相当于工厂的“产能”,而Token则是最终的“产成品”。
传统算力租赁卖的是“设备”,Token工厂卖的则是“结果”。
从根本上讲,Token工厂是对整个AI基础设施体系的重新定义。
传统架构优化的目标是单个模型性能或硬件利用率,而Token工厂优化的核心只有一个:以最高效率、最低成本、大规模地生产Token。
Token工厂必须具备几项关键能力:屏蔽底层复杂的异构基础设施差异;在英伟达GPU、华为昇腾、谷歌TPU等多种芯片之间动态分配工作负载;持续优化吞吐量、延迟、资源利用率以及单个Token的生产成本。
从商业回报上来看,Token工厂的优势非常明显。
据行业分析,一些公司披露的Token工厂业务毛利率显著高于传统算力租赁——传统租赁更像资源生意,而Token工厂是“资源+工程优化+服务交付”的复合型生意,企业的净利率因此有望远超传统租赁模式。
事实上,这条赛道已经跑出了令人瞩目的玩家。据东方证券研报,2022年成立的Fireworks AI,年化收入已达3.15亿美元,毛利率约50%。
而全球最知名的Token运营商OpenRouter,其平台已整合60多家供应商、400多个模型、800多万用户,最新月Token服务量约为80万亿。
一个更生动的案例来自九章云极的“Token Factory”(推理工厂)。一家制造企业接入其系统后,AI质检的算力成本从一项难以预估的固定开支,转变为清晰可控的变动成本,综合成本下降高达55%。
这不仅是省钱的问题,更是让企业能够将算力投入与业务产出直接挂钩的底层变革。
谁在布局下一时代的“水电厂”?
Token工厂的浪潮正在以超乎想象的速度席卷全球。
Omdia最新发布的《2026年全球AI Factory市场格局报告》认为,AI Factory市场已跨越不可逆转的临界点,正在演变为一种以超高资本密度、强地缘属性和复杂工程壁垒为特征的全新工业组织形态。
2026年全球领先科技企业将合计投入超过6,000亿美元用于AI基础设施资本开支;Omdia预测到2030年,全球数据中心累计投资规模将逼近1.6万亿美元。
先说字节跳动。
论布局速度,字节绝对是当前国内Token工厂赛道上走得最远的玩家。
火山引擎披露,豆包大模型日均Token使用量已突破120万亿,这个量级不仅在国内一骑绝尘,即使放到全球也是极其惊人的体量。
作为对比,OpenAI的API平台日均处理约8.64万亿Token,谷歌Gemini大约43万亿,而字节是它们的总和还要多。
更值得关注的是,字节正在从“采购算力”转向“自研算力+自主建造”。公司已将2026年AI资本开支计划上调至超过2000亿元人民币,较年初方案增幅至少25%。
其中约850亿元将专项用于AI芯片采购,同时已预购超50亿美元的国产算力产品。
而在自研层面,字节旗下芯片研发团队整体规模已扩充至千人以上,代号“SeedChip”的AI推理芯片已接近量产——路透社报道称该芯片计划在2026年3月底前获得首批样品,计划年内生产至少10万颗。
再说微软。
微软与Anthropic的最新合作,堪称Token工厂时代的标杆案例。
据CNBC报道,微软正在与Anthropic洽谈供应其自研的Maia AI芯片。这笔交易对微软来说是一次重要胜利——在此之前,其在为客户提供专用AI芯片方面一直落后于亚马逊和谷歌。
Anthropic已承诺在Azure平台上投入300亿美元,并计划在Azure上租赁搭载Maia芯片的服务器。
作为Anthropic的核心客户,微软还计划斥资至少5亿美元采购其大模型接口服务,为Copilot赋能。
这实际上是一条非常完整的Token工厂产业链:微软提供算力基础设施(Maia芯片+Azure云平台),Anthropic生产和训练大模型能力,双方共同向终端客户输出Token服务。
再看谷歌。
在刚刚过去的2026年I/O大会上,谷歌宣布其各项服务每月处理的Token数量已达3.2千万亿,年度资本支出预计达到约1800亿至1900亿美元。
TPU 8t可在丛集架构下扩展至13.4万颗芯片,并进一步整合至最多100万颗芯片规模;而TPU 8i的推理性能较前一代提升高达80%。
此外,黑石集团斥资50亿美元与谷歌合作共建TPU算力AI基建。这条合作路径对行业的启示在于:传统的算力租赁模式正在被升级为“硬件+软件+金融”三位一体的AI基础设施服务——Token工厂不只是一个技术概念,更是一场综合了资本、工程和商业的复合型竞赛。
国内三大运营商也在同步发力。
2026年5月,中国电信宁夏公司发布了金额高达164.51亿元的“Token工厂”生成能力服务采购项目,这是国内首次大规模采购Token生成能力服务。
5月15日,无锡高新区与弘信电子签约,以华为昇腾384超节点服务器为首期基础设施,在锡建立一座大规模“Token工厂”,拟打造华东地区规模最大的昇腾超节点算力集群。
5月17日,中国电信推出了个人和开发者端的Token套餐,最低月费9.9元起;中国移动和中国联通也同步跟进。
这标志着Token正式从一个“技术概念”走向了“消费商品”,也标志着AI正在像自来水、电力一样成为一种普惠的公共服务。
国务院常务会议已将“算力网”与水网、电网放在同等重要的位置,“十五五”规划也明确提出“构建多层次算力设施体系和全国一体化算力网”。
阿里CEO吴泳铭的表述尤为精准:目前AI发展的趋势更像制造业,要获得更多收入必须去建两个核心工厂——AI的训练工厂和AI的推理工厂。
谁拥有Token工厂,谁就掌控AI的下一局?
在这场Token工厂的浪潮背后,一个更深层的命题逐渐浮现:谁拥有Token工厂,谁就掌控AI社会的算力话语权。
为什么Token工厂代表着话语权的转移?答案在于价值锚点的迁移。
过去几年,AI行业的核心价值锚点是“模型”,衡量的标尺是“参数规模”。
但从2026年开始,价值锚点正在从“模型”转移到“Token产能”,衡量的标尺变成了“每瓦Token吞吐量”、“首Token延迟”和“单Token成本”。
正如黄仁勋在GTC大会上所言,在既定的电力和空间资源约束下,数据中心产出Token的速度、质量和成本,将直接决定科技企业能否存活。
Omdia资深首席分析师詹墨磊的判断一针见影:“未来的竞争将不再由模型参数或GPU数量定义,而是能源、液冷、芯片、自治软件栈、主权合规和长期资本耐力的综合较量”。
Token工厂对AI产业链的重塑,体现在以下几个维度:
终端用户将不再关心模型本身,而只关心Token产出。就像你今天用电的时候,并不会关心电是来自煤电、水电还是核电,你关心的只是“能用上电”和“电费多少”。
在Token经济时代,用户感知的将不再是“用的是GPT-5还是Claude 4”,而是“一次对话消耗多少Token,一次视频生成消耗多少额度”。大模型本身正在从“核心壁垒”退化为“基础能力”,真正的差异化竞争将转向Token生产效率和成本的比拼。
Token工厂拥有定价权和结算权。当整个行业都按照Token计价时,谁掌握Token的生产和分发渠道,谁就拥有定价的话语权。
像OpenRouter这样的Token运营商,虽然只是按充值金额收取5.5%的平台费,但它的平台已经聚合了60多家供应商、400多个模型,月Token服务量达到80万亿,实际上已经成为一个AI时代的“超级分发平台”。
算力能力不再是壁垒,“Token效率”和“编排能力”才是。这场转型最具颠覆性的地方在于,你甚至不需要拥有数据中心或GPU,也能运营一家Token工厂。
真正重要的不再是“拥有多少算力”,而是具备编排能力、优化能力、调度能力、交付能力。
换句话说,算力租赁的门槛正在降低,而Token工厂的竞争壁垒却在升高——它比拼的是软硬协同的工程化能力,而不仅仅是砸钱买卡的能力。
区域和行业级的Token工厂将成为下一个增长高地。Omdia认为,2026至2027年将是AI Factory发展的关键窗口期,区域与行业运营市场将成为未来五年增长确定性最高的赛道。
第五,Token工厂的竞争不会是几家巨头垄断的局面,而会在各个垂直行业、各个区域市场形成多元化的竞争格局。
写在最后
Token工厂替代算力租赁,并非一蹴而就。在可见的未来,两种模式大概率会长期并存——算力租赁服务那些仍有定制化训练需求的客户,而Token工厂则将主导大规模推理服务的市场。
但趋势的方向是明确的:随着AI应用规模越来越大,Token调用量持续暴涨,按Token计费的“结果即服务”模式,将在越来越多的场景中替代按资源计费的“租卡模式”。
这背后更深层的变革是:AI正在从“精英化的科研项目”演变为“大众化的基础设施”,就像电力从爱迪生实验室的灯泡变成千家万户墙上的插座一样。
上海证券在其研报中直言:Token正式从“技术概念”走向“消费商品”,将推动AI演变成像自来水、电一样便宜的普惠服务。
Gartner的预测更为激进:到2030年,运行万亿参数模型的推理成本将比2025年下降90%以上,成本效率提升将至少持续十年。
如果这个预测成为现实,那么AI应用的普及将进入一个加速拐点——而Token工厂,就是这个拐点背后的底层推手。
对个人用户而言,未来可能只需要花几十块钱,就能获得每个月数千万Token的用量,让AI成为日常生活和工作中不可或缺的一部分。
对企业而言,Token工厂意味着AI能力可以像自来水一样即开即用,省去了庞大的基础设施投入和运维成本。
AI算力服务的“水电化”时代正在拉开帷幕。而站在2026年这个时间节点上,我们正处于这场变革的起点。
未来的历史学家回溯这个时代时,可能会发现:真正的分水岭不是大模型参数的突破,而是Token工厂替代算力租赁的那一天——那一天,AI真正从“少数人的玩具”变成了“所有人的工具”。