最近,港股出现一家最猛的AI公司:迅策科技。
它上市不到4个月,股价6倍涨幅;只有10亿营收,市值突破千亿元。
它的核心生意:卖Token(词元)。AI疯狂消耗Token,让卖Token成为一门急剧膨胀的生意。
今年3月,中国日均Token消耗量突破140万亿,较2024年初暴涨1000倍;全球年度Token的消耗,将在五年增长3亿倍。
与此同时,AI“燃料商”们迎来了史上最好的日子,比如大模型公司。
月之暗面,20天收入超越2025年全年;而MiniMax和智谱市值,双双突破3000亿元,股价累计涨幅也达5倍左右;
Token大生意时代来临,背后真正的变量不是模型,而是“agent”(智能体)。
agent让从AI从“坐公交”进入“开私家车”的时代——以前聊天模型是被动响应,现在agent是主动执行,token消耗从线性增长变成指数级膨胀。
这也是为什么,过去几个月,那些“卖token”的公司,突然变成资本市场焦点。按token计费的收入,动辄增长数倍甚至十倍。
但资本市场暂时的乐观,并不代表生意的完美。
多位创业者告诉铅笔道,Token的重要性,虽然堪比电力、带宽、石油,但由于无法垄断,很难在充分竞争的市场里,长期赚到高利润。

有人开始用Token生产内容,一条视频背后消耗上亿Token,并形成“内容—流量—变现—再投入”的闭环 ;
有人用Token驱动企业服务,把Token成本控制在10%-20%,按结果收费;
也有人看到更底层的变化——当用户开始自己购买Token、自己承担算力成本,整个AI的商业模式都会被重写。
这意味着,Token热潮并不是终点,而是起点。
铅笔道对话了多位创业者,探讨用Token赚钱的门道。
最赚钱的,不是卖Token的
翁绍斌,零犀科技联合创始人兼总裁
零犀科技是头部大模型应用企业,已经完成4轮融资,正冲刺IPO
今年Token经济火了。
春节前后,智能体浪潮,把大模型应用天花板捅破了。某些平台,Token调用量暴增十倍、几十倍。

很多人把这理解为“突然爆发”,但从行业内部看,迟早会发生,这意味着:大模型的应用天花板进一步被打开了。
另一方面,按Token计价的公司,收入确实激增。但很多人没看到的真相是:收入涨10倍,亏损有可能也涨10倍。这是这一轮Token热最容易被忽视的地方。
这种“成本加成”卖Token的模式,当前可能连毛利打正都难。
卖Token是门好生意吗?不一定。
我打个比喻:这像当年2G到3G、3G到4G,流量包从几百兆突然变几个G。直接卖Token,本质还是基础设施的生意。
就像电信运营商卖流量包——10个G卖多少钱,仅此而已。甭管上面构建了什么应用,本质还是比较像。
而且今天还处于更早期阶段,各家相互竞争、吸引流量,甚至价格倒挂。显然,这不是一个好生意。
说到这里,有人可能会不同意我的观点:卖Token就不能有(模型)溢价吗?我觉得空间不大。 说到底,还得靠产品或应用带来溢价。
目前,全球最先进的闭源和最先进的开源,差距只有3-6个月,这是业内比较普遍的共识。而且在中国,便宜还不等于质量就差。
我们现在的做法是:生产环境用强化学习调优后的开源模型; 闭源模型更多用来做前期研发、做验证。
在垂直行业,基于开源模型进行后训练, 达到的效果显著胜过OpenAI、Anthropic、Gemini等通用模型。 所以贵Token不一定能持续保持高溢价。
归根到底,这取决于ROI——这个场景,值不值得企业自己投入资源,去做后训练、强化学习。
既然卖Token的,不一定最赚钱,那最赚钱的是谁?
我们可以借鉴历史。移动互联网时代,电信运营商卖带宽,但真正赚大钱的是谁?美团、滴滴、抖音。
带宽在它们的成本里占比不到10%,它们靠服务创造价值。Token经济也是一样。卖Token的是水电煤,用Token的才是美团、抖音。
真正的价值创造来自应用层。应用层要有更大的服务溢价,Token成本占比得低于20%,甚至10%以下,这才是健康的Token经济。
我们现在就是这个思路,算是这一波里有“服务溢价”的。
我们今天规模跑通的商业模式,给B端大客户提供技术服务,我们提供的销售智能体帮保险公司卖保险、帮车企卖车。不是按Token调用量收费,而是按成交结果收费(RaaS)。
我们是按价值创造定价,不是按Token成本定价。这比订阅制、比Token成本加成,都更健康。
当然,除了我们,还有一些场景也非常有机会。
第一,编程。Anthropic把这个场景做到极致,纯数字世界完成闭环,适应面特别广,这是一个广谱、更通用的机会。
第二,营销。离钱较近,很多公司在这里面尝试突破。
第三,知识生产。文本、图片、视频创作等。
像字节Seedance等模型出来,大家都在商业化,但整体来看,真正把经济模型完全跑通的公司,目前还不多。
从我们的观察来看,大模型能力基本每半年都会有一轮明显提升。
Chatbot(聊天机器人)到Agent;从早期没有推理能力,到现在可以做复杂推理;从大量幻觉问题,到现在逐步被压制。一直在前进,但整体来看,行业还处在比较早期阶段。
最后总结我的观点:
第一,Token是基础设施,真正的价值创造在应用层。
第二,Token成本占比低于10%-20%,才是健康的Token经济。
第三,卖Token的是卖水的人,用Token创造价值的,才是未来真正赚钱的人。
从这个角度看,Token热才刚刚开始,未来几年,还会一层一层打开。
卖Token,这类公司最赚钱
杨劲松,未来式智能创始人
未来式智能提供企业级AI Agnet服务,已完成三轮融资
最近Token话题确实很热,但如果只看表面,会容易误判——我给大家解读下爆发的背景。
这波Token爆发,有一个很明确的时间节点:“龙虾”这一类agent产品出来之后,Token使用量突然激增。
一方面,“龙虾”类产品底层的Agent设计,直接让Tokens调用量翻了数十倍。
另一方面,早期像 Anthropic 这些厂商,允许你在一些coding工具里“几乎不限量使用”模型API,而只限制访问频次。
后来,这些通道被收紧甚至关闭了。这样,用户就不得不为百万Tokens的使用来付费。比如龙虾,每天轻松就可以花掉几十美元。
一旦免费或者低成本供给被关掉,原来被压住的需求,就会外溢。
再叠加另外一些因素,国内市场就爆发了。
比如海外模型价格比较贵,而国内模型能力又追了上来。于是就出现一个结果:大量原本在海外模型消耗的Token,开始转移到国内模型上。
另外一方面,“龙虾”的火爆,让国内的大模型厂商,看到了可以大量消耗Tokens的场景,全都下场推出了自己的龙虾产品,以及配套的coding plan,主打量大管饱。

这才是这一轮国内Token突然“爆火”的核心背景。
现在很多媒体会引用一些平台的数据,说Token用量暴涨。
但这里有个问题:很多数据是基于类似OpenRouter这种“中转平台”,而这个平台在全球Token消耗里,占比其实很小,可能不到1%。
所以如果用它来判断整个行业,很容易高估或者误判趋势。其实如果看美国,在这段期间的日Tokens调用量,增长幅度并没有特别大。
现在大家都在说:MiniMax、智谱、月之暗面收入涨得很快,Token卖得很多。那是因为之前卖的太少了,各家的coding plan计划,基本都是25年底或者26年初才推出来,借着龙虾的热度消耗一下子就上来了。
但从行业里看,情况没那么简单。
我个人判断,这些模型厂商:可能“收入在涨,但利润不一定在涨”。
原因有几条:1、算力准备不够,要临时扩容,2、到处在抢机房、抢算力,3、用低价甚至补贴去抢市场。
所以现在的阶段,这更像是用价格换规模,用亏损换增长。
如果你从产业链往下看,会发现一个很清晰的结构:现在赚钱的,不一定是大模型厂,而是出租算力的人、建数据中心的人、卖服务器的人。
因为他们在这一轮里,是“刚需供给”。而模型厂,反而是在中间承压的一层。

现在市场上,Token生意大概有三种模式:
第一类是算力批发商。他们直接租算力、把推理Token批量卖给模型厂。这类是稳定赚钱的。
第二类是Token聚合平台。他们低价拿Token,加价卖给开发者。本质就是“分销商”,也有利润空间。
第三类是模型厂。他们既要买越来越紧俏的算力,又要打价格战,还要抢用户,这层反而最难赚钱。
不要只看当下卖Token的热度,Token变现的最好途径,是被“封装成应用”。未来,开放agent框架成熟后,将会出现大量垂直应用,token被隐藏在产品里。用户不会再关心Token,而是关心能不能帮我把事情做完。
今天很多Token的消耗,其实是“探索性消耗”。比如用agent去跑一个复杂任务:不断试、不断修正。这中间会浪费大量Token。
但一旦这个任务跑通了,后面就会发生变化:任务会被固化成workflow或者skills。
这个时候:Token消耗会明显下降,但结果反而更稳定。
在企业场景里,这一点会更明显。
刚开始接入agent的时候,所有任务都用agent跑,Token消耗会迅速上升。但慢慢企业会发现,并不是所有任务都适合用这种方式。
于是就会分成两类:
一类是确定性任务,比如:财务报税、报关、分类审核。这些任务有明确输入输出、有固定流程。最终会变成:workflow + 固定模型。这类任务的agent消耗Token更少、成本更低、稳定性更高。
另一类是开放性任务,比如研究分析、创意内容、非标准决策。这些任务没办法完全固化,就会继续用agent去跑,会消耗大量Token。
建立在Token上的最大的应用机会,我认为是内容生产,尤其是视频。
越来越多内容行业的人,用agent去做整条链路:选题、调研、生成、分发和复盘。这一套下来,token消耗会非常大。
而且内容制作是可以规模化复制的,一旦跑通,就可以批量生产,会持续消耗Token,形成商业闭环。
Token不值钱,IP更值钱
司马华鹏,硅基智能创始人
硅基智能正冲刺港股IPO,为企业提供数字人及数字IP制作服务
卖Token突然变成一门看起来不错的生意,背后三个关键因素。
第一,agent爆发。过去人和AI的交互,无论是聊天还是简单推理,Token消耗其实不高。但agent出现以后不一样了,它有长上下文,有复杂任务链,Token消耗是几何级增长的。这是最核心的驱动力。
第二,商业化场景跑通了。现在很多公司已经找到了用Token赚钱的路径。
第三,国产模型能力追上来了。现在国内模型大概已经达到全球先进模型的95%,这让大规模使用token成为可能。
而真正让Token需求爆发的,是第二点——用Token做成生意。
比如短剧,就是一个典型场景。我们自己也在做内容矩阵,像“大司马”这样的IP,每天都有上亿流量,对应的Token消耗,从几千万到几亿,很快可能到百亿级。这里面最重要的是,它已经形成了商业闭环:内容—流量—变现—再投 Token。
过去,我们把工具卖给别人,现在是自己用Token直接生产结果。
我们内部有一套自动化的视频生产系统,选题、调研、内容生产、运营复盘,基本都由 agent 完成。然后再叠加企业家IP、科普内容,就形成了一套可复制的内容生产和商业化体系。

一旦可复制,Token 的消耗就会快速放量。但我一直强调:Token本身不一定是最有价值的。
很多人现在讨论卖Token这件事,但我不觉得这会是一个长期稳定的生意。
从商业逻辑上看,Token是一个会不断贬值的东西。
你可以看到,一方面是开源在推进,比如谷歌、DeepSeek 这些都在往外放能力;另一方面,模型能力越来越接近,差异在缩小。一旦供给变多,价格一定往下走,这是必然的。
所以我更倾向于把 Token 理解成一种“基础资源”,类似带宽、电力,它不是一个有长期护城河的产品。
但你把Token“封装”成了结果交付,比如帮企业做内容、做账号、做增长,竞争就少很多。我们现在做的就是这件事。
所以,未来真正值钱的,不是Token,而是IP。
我们用Token去做IP、在每个内容里大量投入Token,走高质量路线。AI是一个“增效工具”,而不是“降本工具”。就像开一家牛肉面店,不是因为效率高了就少放肉,而是可以卖更多面,同时保证每碗肉的量。
从行业来看,未来 Token供给市场会明显分化:
一类是低成本、大规模的Token,用来做日常任务,比如写邮件、写报告,这个市场很大,但竞争也极其激烈。
另一类是高质量、高价值的Token,用来做精品内容、复杂创作,这一类才有溢价空间。我们选择的是后者。
现在行业痛点是Token质量还不够高:做普通内容是够用的,但你要做真正顶级的东西,比如电影、文学作品,它还差得很远。
可以用一个很简单的类比来理解这个行业。
一种是代步车,满足基本需求,量大、便宜、普及,这是低端Token。另一种是赛车,追求极致性能,成本很高,但它代表技术上限,这是高端 Token。
最终能赢的,一定是那些能用“赛车级能力”去创造更高价值的公司。这些公司有机会走向更高水平,甚至接近AGI。
这轮Token热:2个明显误区
李笛,明日新程创始人
明日新程主攻群体多智能体,连续获得两轮天使融资
最近Token很热。
本质上看,并不是Token消耗突然变多了,而是大家第一次“看见了Token”。
以前你在云端用AI产品,比如用ChatGPT、用各种模型,Token一直在消耗,只不过你感知不到。现在像OpenClaw这种智能体形态,让Token消耗直接暴露在你面前,所以突然觉得“消耗很大”。
第二个变化是,过去Token优化主要是厂商在做,但现在很多优化权交给了用户。用户自己在调agent、调流程,这个过程中天然会产生大量低效消耗。
第三点更关键——AI从“被动响应”变成“主动执行”。
以前的AI,是reactive的(被动反应)。你问,它才干活;你不问,它停着。但现在的智能体不是,你不盯着,它也在后台跑任务。这个变化,会让Token消耗从“按次计费”,变成“持续消耗”。
举个例子,过去的AI更像公共交通:统一线路、固定调度、用户只是乘客。
智能体出现,相当于AI世界开始出现私家车。每个人可以自己决定路线,自己决定任务,自己调用Token。
这会带来两个结果:整个系统更“拥挤”,Token消耗更高,但整体经济规模会更大、更繁荣。
现实世界也一样,私家车一定比公共交通更消耗资源,但它带来了更高的自由度和更大的经济活动。
卖Token是一门大生意,但它不参与价值分配,是产业链里的基础层。
就像汽油,它本身没有附加价值,关键在于你把它用在哪里。加油站给豪华专车加油,还是给一辆破车加油,油价是一样的,但最终能赚钱的是车的拥有者,看他用来做什么。
这也是为什么,这一轮AI其实很早就开始分化了——有人做基础设施,有人做应用,有人做系统集成,各自占据不同位置。
如果未来Token消耗非常大,是不是可以像石油公司一样靠规模赚钱?
可以,但前提不一样。石油、电力、水这些基础设施,都有一定垄断或准垄断属性。但现在的Token供应,是完全竞争的。
现在市场上MiniMax、智谱、月之暗面,都在拼价格、拼能力、拼API。这种完全市场竞争环境下,很难形成稳定利润率,也很难建立护城河。
这轮Token热,我看到两个明显的误区。

第一,很多人以为:好的任务用好Token,简单任务用差Token。
其实不是。同一个任务,在不同阶段,对Token的要求完全不同。
初期需要强模型(贵token)去探索、试错,后期流程稳定后,用普通模型就可以跑。
Token的质量,不是由任务决定,而是由“成熟度”决定。这也是为什么端侧、小模型会有机会。
第二,用Token消耗量来评价公司,甚至评价员工。
这个逻辑是有问题的。Token消耗多,有两种可能:任务复杂、价值高或者纯粹在浪费。
同样一个视频任务,不同团队可能消耗差10倍Token,但结果一样,那多出来的9倍,本质是低效。
这有点像评估经济如果只看GDP单一指标,不看其它,最后一定不准确。而且只盯着token,容易看偏。
我现在看到的机会,更多是在Token之上的结构性变化。
第一,今天的agent,本质上还不成熟。你可以把它理解成一辆车:能开,但不好开。它不听话,经常跑偏,甚至会“翻车”(比如误删数据)。
意味着现在最大的问题,不是Token不够,而是:产品封装能力不够。
如果你要把agent卖给普通用户,你必须做到几件事:降低使用门槛(不能太极客)、控制风险(不能随便出事故)、让Token消耗可预期、出问题有明确的“说明书”。
谁能把这件事做好,谁就能吃到第一波红利。
第二,现在很多人低估了一件事:agent之间的协同,是最大的难点。
单个agent做短任务,其实问题不大。但一旦多个agent协作,执行长任务(比如24小时),结果往往很糟糕。
原因很简单:协同机制还没做好。而且这件事不能交给用户解决。
所以未来真正有价值的公司,是帮用户把“多agent协同”做好的人。我们现在就在做这件事。
第三,我看好一个趋势:算力从云端往端侧迁移,用户自己的设备加上自己买Token。
用户一旦自己承担计算成本,将会颠覆现有的AI商业模式。
今天AI产品不赚钱,本质原因只有一个:它们在帮用户垫付算力成本。也就是批发英伟达算力,再打包卖给用户,这件事利润很薄。
但一旦变成用户自己承担token,软件只收“服务费”,那AI整个商业模型就成立了。
端侧设备我看好两类:
1、手机和可穿戴设备这样的随身设备,它们有算力(1B~7B模型已经够用),授权方便(agent需要频繁调用权限);
2、家庭/组织节点,小型本地算力中心。
如果只看今年下半年,先赚钱的也会是硬件。
原因很简单:AI必须依赖基础设施,基础设施一定是先有硬件。就像5G,先建基站,再有应用。
现在AI也是一样。如果端侧硬件不普及,agent没地方跑,token经济也跑不起来
所以Token经济的顺序是:先硬件,再软件,再服务。