算力租赁将要被Token工厂替代？

AI资讯2个月前更新 AI导航网

0 0

你熟悉的“囤卡为王”正在失效，一条新的产业逻辑悄然浮现。

过去两年，AI产业的主角是算力。谁有GPU、谁有机房、谁能更快搭起服务器，谁就被认为站在了浪潮前排。

满世界都在谈论“算力为王”，仿佛只要囤够了GPU，就等于手握通往未来的船票。

然而，2026年的AI行业正在上演一场静水流深的变局。当我们还在津津乐道“囤卡致富”的造富神话时，一场从“租算力”到“卖Token”的范式转移已经悄然启动，正在以惊人的速度重塑整个产业链的面貌。

这不仅仅是计价方式的改变，更是AI产业底层逻辑的根本性重构。

全球算力正在遭遇前所未有的挤兑

要理解这场变革的背景，得先从一组触目惊心的数据说起。

先看全球。摩根士丹利的统计令人震撼：2026年1月初，全球每周Token使用量还停留在6.4万亿次，到3月已经飙升至22.7万亿次——三个月翻了两倍多。

OpenAI的企业API调用量从2025年10月的每分钟60亿次，到2026年3月底直接冲到每分钟150亿次，不到半年增长了150%。

再来看国内。根据国家数据局的统计，截至2026年3月，中国日均Token调用量已突破140万亿。

对比2024年初的1000亿，短短两年时间，增长了超过1000倍。这是一个在几乎所有传统产业中都不可思议的增长曲线。

字节跳动旗下的豆包大模型，日均Token使用量已突破120万亿。

换算成直观的工程指标：这相当于每秒要处理13.9亿个Token——这不再是实验室里的压力测试，而是真实生产环境中持续运转的重负载。

更夸张的是，摩根士丹利的预测显示，当前AI算力需求的增速，是英伟达供给增速的3倍。供需之间的缺口还在持续扩大。

然而为什么Token消耗量会突然呈现指数级飙升？答案指向一个关键词：智能体（Agent）AI的爆发。

2026年初，以OpenClaw为代表的开源智能体工具正式登场。过去的AI像个问答机器人，你问它答，一锤子买卖。

但智能体从“回答问题”升级到了“执行任务”：它可以自己打开文件夹、阅读文档、调用软件、填写表格、发送邮件。

这意味着单次任务的算力消耗，比简单问答高出10到100倍。智能体任务占整体AI算力消耗的比例，从2025年的12%飙升至2026年Q1的47%。

所以别再以为算力不够只是芯片买少了。

算力短缺的背后是三层刚性约束：芯片制造受制于EUV光刻机的产能天花板，GPU交付周期长达6到9个月，数据中心建设则需要18到24个月的双重瓶颈；电力方面，一个大型数据中心的耗电量足以供一座小城市使用，大摩预计2025至2028年间美国数据中心将面临55吉瓦的电力缺口；人力瓶颈同样不容忽视，能驾驭这些复杂系统的AI工程师全球稀缺。

于是在这样的背景下，一场深刻的产业转型正在发生。

为什么旧模式正在失效

先回顾一下过去两年AI基础设施的主流商业模式——“算力租赁”。简单说，就是“我有GPU，你付钱来租”。客户按月、按年付费，服务商把算力当作资源出租。

在产业早期，这个模式之所以成立，是因为当时最稀缺的是“资源本身”，能拿到英伟达的高端显卡就已经赢了。

但这套逻辑正在逐渐失效。中邮证券的分析一针见血：传统算力租赁模式下，服务商收益存在刚性天花板。原因至少有三个。

其一，算力租赁更像是“出租设备”，而不是“交付结果”。客户租的是GPU，不是最终的AI能力。就像你租了一台机器，至于机器最后做出多少产品、赚了多少钱，跟出租方关系不大。

哪怕下游AI应用突然爆发，算力租赁方也很难分享到增长红利，收入通常是固定的，弹性有限。

其二，算力租赁容易陷入同质化竞争。如果大家做的都是“谁有卡、谁便宜、谁交付快”，这门生意最终很容易走向价格战，利润空间持续被压缩。

其三，对大模型公司和互联网大厂来说，自己扛起全部推理体系越来越重。今天的AI服务背后需要解决的是一整套复杂问题：机房、电力、散热、网络、存储、调度、模型优化、延迟控制、稳定性保障、成本管理——算力投入早已不只是技术问题，更是财务问题、组织问题，甚至是风险问题。

更残酷的现实是：全球数千亿美元投入的AI基础设施建设，本质上大部分还停留在“披着复杂软件外衣的GPU租赁”阶段。

昂贵的GPU因为I/O等待，大量时间处于空转状态，形成了所谓的“僵尸GPU”现象。行业正在从单纯比拼FLOPS转向关注TTFT（Time-to-First-Token，首Token延迟）等更务实的效率指标。

而从更大的视角来看，AI产业的竞争中心正在从模型参数转向Token生产效率。

过去大家比的是“谁家的模型更大、参数更多”，现在比的变成了“谁能以更低的成本、更高的效率、更稳定的吞吐能力生成Token”。

模型能力的差异正在被拉平，而Token生产能力的差异却可能成为决定胜负的关键。

真正赚钱的可能不再是模型公司本身，而是那些能高效、稳定、低成本地生产Token的平台。

就在这样的供需失衡和模式困境中，“Token工厂”的概念应运而生。

Token工厂

从“租卡”到“卖智能”的跃迁

什么是Token工厂？这个概念由黄仁勋在GTC 2026大会上正式提出。他指出，未来的数据中心不再是存储文件的仓库，而是生产Token的工厂。

如果用更通俗的比喻来解释：算力相当于工厂的“产能”，而Token则是最终的“产成品”。

传统算力租赁卖的是“设备”，Token工厂卖的则是“结果”。

从根本上讲，Token工厂是对整个AI基础设施体系的重新定义。

传统架构优化的目标是单个模型性能或硬件利用率，而Token工厂优化的核心只有一个：以最高效率、最低成本、大规模地生产Token。

Token工厂必须具备几项关键能力：屏蔽底层复杂的异构基础设施差异；在英伟达GPU、华为昇腾、谷歌TPU等多种芯片之间动态分配工作负载；持续优化吞吐量、延迟、资源利用率以及单个Token的生产成本。

从商业回报上来看，Token工厂的优势非常明显。

据行业分析，一些公司披露的Token工厂业务毛利率显著高于传统算力租赁——传统租赁更像资源生意，而Token工厂是“资源+工程优化+服务交付”的复合型生意，企业的净利率因此有望远超传统租赁模式。

事实上，这条赛道已经跑出了令人瞩目的玩家。据东方证券研报，2022年成立的Fireworks AI，年化收入已达3.15亿美元，毛利率约50%。

而全球最知名的Token运营商OpenRouter，其平台已整合60多家供应商、400多个模型、800多万用户，最新月Token服务量约为80万亿。

一个更生动的案例来自九章云极的“Token Factory”（推理工厂）。一家制造企业接入其系统后，AI质检的算力成本从一项难以预估的固定开支，转变为清晰可控的变动成本，综合成本下降高达55%。

这不仅是省钱的问题，更是让企业能够将算力投入与业务产出直接挂钩的底层变革。

谁在布局下一时代的“水电厂”？

Token工厂的浪潮正在以超乎想象的速度席卷全球。

Omdia最新发布的《2026年全球AI Factory市场格局报告》认为，AI Factory市场已跨越不可逆转的临界点，正在演变为一种以超高资本密度、强地缘属性和复杂工程壁垒为特征的全新工业组织形态。

2026年全球领先科技企业将合计投入超过6,000亿美元用于AI基础设施资本开支；Omdia预测到2030年，全球数据中心累计投资规模将逼近1.6万亿美元。

先说字节跳动。

论布局速度，字节绝对是当前国内Token工厂赛道上走得最远的玩家。

火山引擎披露，豆包大模型日均Token使用量已突破120万亿，这个量级不仅在国内一骑绝尘，即使放到全球也是极其惊人的体量。

作为对比，OpenAI的API平台日均处理约8.64万亿Token，谷歌Gemini大约43万亿，而字节是它们的总和还要多。

更值得关注的是，字节正在从“采购算力”转向“自研算力+自主建造”。公司已将2026年AI资本开支计划上调至超过2000亿元人民币，较年初方案增幅至少25%。

其中约850亿元将专项用于AI芯片采购，同时已预购超50亿美元的国产算力产品。

而在自研层面，字节旗下芯片研发团队整体规模已扩充至千人以上，代号“SeedChip”的AI推理芯片已接近量产——路透社报道称该芯片计划在2026年3月底前获得首批样品，计划年内生产至少10万颗。

再说微软。

微软与Anthropic的最新合作，堪称Token工厂时代的标杆案例。

据CNBC报道，微软正在与Anthropic洽谈供应其自研的Maia AI芯片。这笔交易对微软来说是一次重要胜利——在此之前，其在为客户提供专用AI芯片方面一直落后于亚马逊和谷歌。

Anthropic已承诺在Azure平台上投入300亿美元，并计划在Azure上租赁搭载Maia芯片的服务器。

作为Anthropic的核心客户，微软还计划斥资至少5亿美元采购其大模型接口服务，为Copilot赋能。

这实际上是一条非常完整的Token工厂产业链：微软提供算力基础设施（Maia芯片+Azure云平台），Anthropic生产和训练大模型能力，双方共同向终端客户输出Token服务。

再看谷歌。

在刚刚过去的2026年I/O大会上，谷歌宣布其各项服务每月处理的Token数量已达3.2千万亿，年度资本支出预计达到约1800亿至1900亿美元。

TPU 8t可在丛集架构下扩展至13.4万颗芯片，并进一步整合至最多100万颗芯片规模；而TPU 8i的推理性能较前一代提升高达80%。

此外，黑石集团斥资50亿美元与谷歌合作共建TPU算力AI基建。这条合作路径对行业的启示在于：传统的算力租赁模式正在被升级为“硬件+软件+金融”三位一体的AI基础设施服务——Token工厂不只是一个技术概念，更是一场综合了资本、工程和商业的复合型竞赛。

国内三大运营商也在同步发力。

2026年5月，中国电信宁夏公司发布了金额高达164.51亿元的“Token工厂”生成能力服务采购项目，这是国内首次大规模采购Token生成能力服务。

5月15日，无锡高新区与弘信电子签约，以华为昇腾384超节点服务器为首期基础设施，在锡建立一座大规模“Token工厂”，拟打造华东地区规模最大的昇腾超节点算力集群。

5月17日，中国电信推出了个人和开发者端的Token套餐，最低月费9.9元起；中国移动和中国联通也同步跟进。

这标志着Token正式从一个“技术概念”走向了“消费商品”，也标志着AI正在像自来水、电力一样成为一种普惠的公共服务。

国务院常务会议已将“算力网”与水网、电网放在同等重要的位置，“十五五”规划也明确提出“构建多层次算力设施体系和全国一体化算力网”。

阿里CEO吴泳铭的表述尤为精准：目前AI发展的趋势更像制造业，要获得更多收入必须去建两个核心工厂——AI的训练工厂和AI的推理工厂。

谁拥有Token工厂，谁就掌控AI的下一局？

在这场Token工厂的浪潮背后，一个更深层的命题逐渐浮现：谁拥有Token工厂，谁就掌控AI社会的算力话语权。

为什么Token工厂代表着话语权的转移？答案在于价值锚点的迁移。

过去几年，AI行业的核心价值锚点是“模型”，衡量的标尺是“参数规模”。

但从2026年开始，价值锚点正在从“模型”转移到“Token产能”，衡量的标尺变成了“每瓦Token吞吐量”、“首Token延迟”和“单Token成本”。

正如黄仁勋在GTC大会上所言，在既定的电力和空间资源约束下，数据中心产出Token的速度、质量和成本，将直接决定科技企业能否存活。

Omdia资深首席分析师詹墨磊的判断一针见影：“未来的竞争将不再由模型参数或GPU数量定义，而是能源、液冷、芯片、自治软件栈、主权合规和长期资本耐力的综合较量”。

Token工厂对AI产业链的重塑，体现在以下几个维度：

终端用户将不再关心模型本身，而只关心Token产出。就像你今天用电的时候，并不会关心电是来自煤电、水电还是核电，你关心的只是“能用上电”和“电费多少”。

在Token经济时代，用户感知的将不再是“用的是GPT-5还是Claude 4”，而是“一次对话消耗多少Token，一次视频生成消耗多少额度”。大模型本身正在从“核心壁垒”退化为“基础能力”，真正的差异化竞争将转向Token生产效率和成本的比拼。

Token工厂拥有定价权和结算权。当整个行业都按照Token计价时，谁掌握Token的生产和分发渠道，谁就拥有定价的话语权。

像OpenRouter这样的Token运营商，虽然只是按充值金额收取5.5%的平台费，但它的平台已经聚合了60多家供应商、400多个模型，月Token服务量达到80万亿，实际上已经成为一个AI时代的“超级分发平台”。

算力能力不再是壁垒，“Token效率”和“编排能力”才是。这场转型最具颠覆性的地方在于，你甚至不需要拥有数据中心或GPU，也能运营一家Token工厂。

真正重要的不再是“拥有多少算力”，而是具备编排能力、优化能力、调度能力、交付能力。

换句话说，算力租赁的门槛正在降低，而Token工厂的竞争壁垒却在升高——它比拼的是软硬协同的工程化能力，而不仅仅是砸钱买卡的能力。

区域和行业级的Token工厂将成为下一个增长高地。Omdia认为，2026至2027年将是AI Factory发展的关键窗口期，区域与行业运营市场将成为未来五年增长确定性最高的赛道。

第五，Token工厂的竞争不会是几家巨头垄断的局面，而会在各个垂直行业、各个区域市场形成多元化的竞争格局。

写在最后

Token工厂替代算力租赁，并非一蹴而就。在可见的未来，两种模式大概率会长期并存——算力租赁服务那些仍有定制化训练需求的客户，而Token工厂则将主导大规模推理服务的市场。

但趋势的方向是明确的：随着AI应用规模越来越大，Token调用量持续暴涨，按Token计费的“结果即服务”模式，将在越来越多的场景中替代按资源计费的“租卡模式”。

这背后更深层的变革是：AI正在从“精英化的科研项目”演变为“大众化的基础设施”，就像电力从爱迪生实验室的灯泡变成千家万户墙上的插座一样。

上海证券在其研报中直言：Token正式从“技术概念”走向“消费商品”，将推动AI演变成像自来水、电一样便宜的普惠服务。

Gartner的预测更为激进：到2030年，运行万亿参数模型的推理成本将比2025年下降90%以上，成本效率提升将至少持续十年。

如果这个预测成为现实，那么AI应用的普及将进入一个加速拐点——而Token工厂，就是这个拐点背后的底层推手。

对个人用户而言，未来可能只需要花几十块钱，就能获得每个月数千万Token的用量，让AI成为日常生活和工作中不可或缺的一部分。

对企业而言，Token工厂意味着AI能力可以像自来水一样即开即用，省去了庞大的基础设施投入和运维成本。

AI算力服务的“水电化”时代正在拉开帷幕。而站在2026年这个时间节点上，我们正处于这场变革的起点。

未来的历史学家回溯这个时代时，可能会发现：真正的分水岭不是大模型参数的突破，而是Token工厂替代算力租赁的那一天——那一天，AI真正从“少数人的玩具”变成了“所有人的工具”。

# AI资讯

文章版权归作者所有，未经允许请勿转载。

大模型的“掘金卖铲”生意，AI Infra的最佳机会来了？

AI导航网

今日明星“端到端”，能否撑起智能驾驶的未来？

AI导航网

疯狂对标OpenAI，智谱AI要背水一战

AI导航网

登上Science，华人科学家推出通用生物医学AI Agent，真实科研表现接近人类专家

AI导航网

调研超600人，英伟达这份报告揭示AI医疗未来发展方向

AI导航网

苹果 AI 眼镜深度爆料汇总：重量低至 40g，2026 发布

AI导航网

算力租赁将要被Token工厂替代？

全球算力正在遭遇前所未有的挤兑

为什么旧模式正在失效

Token工厂

谁在布局下一时代的“水电厂”？

谁拥有Token工厂，谁就掌控AI的下一局？

李飞飞的世界模型宣言

实测Claude史上最强模型Fable 5，普通人慎用

相关文章