当地时间3月17日,宇树科技创始人、CEO王兴兴在英伟达GTC大会上发表题为《如何迈过具身智能的ChatGPT时刻》的在线演讲,针对当前具身智能持续升温、产业临近关键拐点的行业背景,系统研判了产业所处阶段、技术路径与核心瓶颈,回应了 “机器人何时迎来属于自己的ChatGPT时刻” 这一行业核心议题。
王兴兴指出,尽管市场热度不断攀升,但真正具备强泛化能力、能够在陌生环境中稳定执行任务的通用具身智能模型仍未出现,行业整体仍停留在“临界点之前”,未来1至3年将成为决定能否实现突破的关键窗口期。
王兴兴认为,如果机器人能够在80%的陌生场景中,仅通过语言指令完成80%的任务,即可视为具身智能迈入“确定性时刻”,这一节点将类似大模型领域的ChatGPT时刻,推动行业从展示走向规模化应用。
围绕这一目标,他总结了当前三大核心挑战:一是模型表达能力不足,难以生成和执行复杂、多样化动作;二是数据稀缺,需提高对视频与仿真数据的利用效率,降低对真机数据依赖;三是强化学习缺乏规模化复用机制,训练成果难以积累。
在技术路径上,他更看好基于世界模型与视频生成模型的方向,认为其上限更高、数据来源更广,但同时也面临仿真与真实世界难以精准对齐的关键难题。
王兴兴强调,具身智能的发展不是单一公司或国家可以完成的工程,而需要全球协同推进。一旦临界点被突破,将成为具有历史意义的产业转折时刻。
以下为王兴兴讲话的精简版:
各位来宾,大家好。我是宇树科技创始人王兴兴,非常高兴在此做一个简单分享,今天我分享的题目是:如何迈过具身智能的确定性时刻。
大家知道,最近几年具身智能虽然非常火热,但真正泛化性足够强的具身智能模型,其实还需要一段时间才能诞生。换句话说,目前大家还没有实现真正意义上的通用落地效果。这也是未来几年,快则一两年、慢则两三年,我们整个行业需要突破的临界点 —— 谁能率先突破,谁就有可能真正点燃全球具身智能大规模应用的前夜。
01 深耕布局:宇树全系列机器人产品矩阵

宇树科技2016年成立,我最早做四足机器人大概是从2013年开始,到2016年正式创立公司。我在人形机器人领域的起步更早,2009年读大一本科的时候,就做过一款小型人形机器人。
最近几年,我们公司也推出了多款人形机器人与四足机器人产品,其中最具代表性的,是2024年5月发布的G1人形机器人。从某种意义上说,这款机器人已经成为全球范围内非常经典的一款机型,国内外很多机构、企业都在使用,甚至不少公司在参考、学习我们这款机器人的设计方案。

G1最大的特点是机身相对小巧,性价比非常高,身高大约1.3米,重量三十几千克,自由度数量高,腿部等关键关节配置完整,传感器与机身整体紧凑度也很高,因此在易用性、外观美观度上在全球范围内都具备很强的竞争力。我认为,即便再过十几二十年回头看,这款机器人依然会是一款经典型号。

去年,我们又发布了A2这款中型工业级机器狗,性能指标非常突出,可用于室内和室外的巡检、巡逻等任务。

同期我们还发布了H2大尺寸人形机器人,身高1.8米,人体比例更好,灵活度更高,尺寸更大,适合承担一些体力类工作,在工厂、农业等场景会更加适用。

前段时间,我们发布了小型机器狗A12,具备基础防水能力,负载能力达到十几千克级别,续航时间也很长,硬指标在全球同级别产品中处于领先水平。未来我们希望这款机器人能够真正走进消费场景,比如陪伴用户徒步旅行,帮助背负包裹,让出行更加轻松方便。
02 核心突破:机器人运动性能与稳定性升级

在北京举办的世界机器人大会相关赛事中,我们的机器人拿到了1500米、100米等项目的冠军,这是非常标志性的成果。
G1也是我们公司第一款拿下多项金牌的人形机器人,到目前为止,它也是全球公开数据中跑得最快的人形机器人之一,长跑1500米大约只需6分多钟,已经超过一般普通人,不过短跑速度目前和人类相比还有差距。

另外,我们在去年也做了大量软件升级:比如机器人在任意动作姿态下都具备抗冲击能力,摔倒之后可以自主起身。这是非常关键的技术,因为我们相信,机器人大规模应用,必须在各种复杂环境、极端情况下保持稳定,出现意外也能自己恢复。

这也铺垫了我们的算法在规模化落地中的优势:我们的算法对不同硬件的适配能力较强,可以在多款机器人平台上迁移使用,人类能完成的大量动作,我们的机器人都具备学习和复现能力。
像前空翻这类动作,我们基本可以做到100%的成功率,至少我在公司内部和外部展示中,从来没有见过失败。当然,一些特别复杂的动作,在地面湿滑等特殊条件下,仍可能出现不稳定的情况。
今年我们还推出了更大尺寸的机器人,因为G1相对小巧,负载和手臂力量有限,要真正进入工厂、家庭,承担更重的体力工作,需要更大的机身与更强的负载能力。
这类大型机器人可以学习更复杂的作业任务,但因为自重更大,近距离存在一定危险性,所以如果大家现场见到这类大型机器人,建议保持2—3米的安全距离,避免被手臂或腿部意外触碰导致受伤。

去年,我们的产品、我本人以及公司,也很荣幸获得了《时代》周刊的相关评选认可。
过去一年,我们在AI方面做了很多升级:包括基础跑步、舞蹈动作、武术动作,在任意干扰下的快速稳定与恢复,以及去年下半年推出的全域遥操作系统,这些都是非常有价值的技术。我们认为,当下以及未来几年,全身深度强化学习技术,在很大程度上已经解决了绝大部分问题,虽然仍需要继续完善,但本质上已经不再是瓶颈和难点。
03 春晚实践:机器人系统能力的集中展现

今年2月,我们的机器人登上央视春晚“五波特”节目,获得了国内外广泛好评。为了这个节目,我们把能找到的中国传统功夫动作基本都梳理了一遍,最开始筛选了大概100个动作,最后保留了几十个有代表性的动作,包括大家熟知的醉拳、双节棍、舞棍、舞剑等,基本覆盖了典型的功夫形态。
我们还挑战了很多高难度动作,比如单脚原地连续空翻,对腿部电机压力非常大;还有蹬墙上墙,我们没有采用传统单步增强的方案,而是采用两步上墙,让整体高度更高、视觉效果更好。节目中舞棍部分,我们使用了灵巧手,可以稳定抓握棍棒;在义乌分会场,更大尺寸的G2机器人以“大圣”形象亮相,也具有特殊意义。
为了“五波特”节目,我们对机器人也做了专门改装:
第一,把头部激光雷达换成128线3D激光雷达,方向朝向天花板,避免现场人群遮挡,让机器人能获取更完整的周边环境信息;
第二,我们使用了预训练全身 AI模型,而不是单独训练单一策略模型,其能力覆盖度更高,训练更方便,硬件兼容性更强,走位速度、复杂动作组合能力都更优秀。
简单来说,我们的机器人在执行复杂动作时,可以瞬间暂停、瞬间稳定、瞬间切换到下一个动作。在早期技术方案里,如果训练的是单一固定策略,动作中途无法暂停,强行暂停很容易摔倒,而我们的机器人可以中途稳定停住并切换动作,极大方便了动作调试与组合编排。
除此之外,我们还开发了全身状态感知模型,让机器人更好地完成感知与决策;同时搭建了集群控制系统,可以调度几十台、上百台机器人完成复杂走位与编队表演。

前段时间我们还发布了小型高性能机器狗As2,是动力性能更强的小型化平台,自重约18千克,负载能力强,可以搭载吸尘器等设备,同时我们在其中融入了更仿真的拟人、拟动物运动模型,在小尺寸平台上也能实现强运动能力与作业能力。
去年下半年我们重点完善的全域遥操作系统,实用性很强,非常适合大规模数据采集。当然目前全球范围内的遥操作方案仍有不足:机器人动作完成度和真人相比仍有差距,复杂动作下脚部或身体会出现抖动,操作体验仍有提升空间,但整体稳定性已经非常不错。大家看到的相关视频都是 1:1 真实速度,没有加速,可以直观看到机器人的运动速度。

我们一直希望,未来可以实现机器人自己生产机器人。因此我们也在把大模型技术应用到人形机器人上,让机器人进入我们自己的工厂,参与人形机器人的制造与装配。这是一件非常有趣也非常有意义的事情。
当然目前在复杂工位,比如关键模组装配,因为涉及零件多、工序复杂,成功率还不算特别高;但抓取单个或少量零部件、单工序或少工序的动作,在数据充分训练后,基本可以达到100%成功率。从全球范围来看,多工序、长任务、涉及细小零部件的精细操作,仍然是极具挑战性的课题。
04 双向发力:运动能力与作业能力同步推进

我们公司始终认为:运动能力和作业能力同等重要,两条路线必须同步推进。某种意义上,运动能力是机器人能够“干活”的先决条件——机器人要完成任务,首先动作库要足够丰富,一个模型能表达出各种各样的动作;其次必须足够稳定,在执行动作时保持可靠。所以运动能力是非常核心的基础。
这就像自然界的动物,蚂蚁、老鼠、狗,大脑认知未必复杂,但运动能力极强。所以运动智能反而是相对更容易率先实现的智能,也是实现更高层级智能的前提。因此我们一直高度重视运动能力,同时也在持续推进机器人的实用化、作业化能力。但客观来说,“让机器人真正可靠干活”,目前在全球范围内仍然难度很高。
过去几年,我们和众多知名高校、科技企业展开合作,基于我们的硬件平台进行软件开发,共同推动行业发展。大家可以明显感受到,最近一两年整个人形机器人行业进展非常快,这种快速进步不是靠一两家公司,而是全球范围内中美等多国企业、科研团队、高校共同努力的结果。每当看到行业不断出现新成果、新技术,我都非常高兴,相信大家也是如此。
我们过去的很多研发工作,都基于英伟达的芯片与仿真环境,这也是行业内非常普遍的选择。同时我们也坚持开源,基本每隔一个月就会开源算法、数据集等相关成果,也建立了技术社区,分享前沿论文、数据集、研究观点、相关项目与开源代码链接,欢迎大家关注与使用。
05 关键瓶颈:迈过具身智能“ChatGPT时刻”的核心问题

回到今天的主题:如何迈过具身智能的确定性时刻。我认为行业必须清晰面对并解决以下几个核心问题:
第一,提升模型对任务的表达能力,突破泛化瓶颈。目前很多模型只能完成基础动作,无法实时生成、表达各类复杂、非常规动作。如果模型连动作都无法有效表达和生成,就更谈不上高质量执行。未来需要进一步优化多模态模型、感知模块、编码器与解码器结构,并让其与多模态模型更好地结合。
第二,提升模型对多元数据的利用效率。机器人领域的数据和语言模型不一样,真实机器人数据非常稀缺。如果必须依赖海量真机数据才能训练出可用模型,整体效率太低。因此我们要更多使用视频数据、仿真数据,减少对真机数据的依赖,用更少的真实数据实现更好的训练效果。互联网视频数据体量极大,如果能高效利用,将极大降低对真机采集的压力。
第三,提升强化学习的规模效应。目前行业普遍存在一个问题:训练完一个新动作,相关数据就被丢弃,新任务要重新训练。如果能把多场景、多任务的数据整合到统一大模型里,实现二次复用、持续迭代,就会形成更强的规模效应与指数级进步。这也是强化学习领域非常值得探索的方向。
06 未来方向:定义具身智能的“ChatGPT时刻”

从技术路线来看,最近几年计算智能领域非常活跃,基于VR模型、视频生成模型、世界模型的路线都受到大量关注。我们认为,世界模型与视频生成相关模型的天花板更高,数据来源更广,更有可能成为主流方向。
2024到2025年,我们开源了自研的基于视频生成的世界模型:机器人可以先“想象”未来动作,再与实际机器人运动对齐执行,视频生成效果非常好。但目前全球范围内仍存在一个难题:视频模态与真机执行的精准对齐。视频里可以做到几乎零误差,但在真实机器人上,哪怕只差1毫米,效果也可能天差地别。未来把视频生成模型与强化学习结合,会是非常有价值的方向,这套模型我们完全开源,包括训练代码和数据,大家都可以使用。
相比之下,传统VR模型的天花板相对更低,尤其在泛化能力上仍存在明显瓶颈。我们的相关训练架构也已开源,在官方GitHub上可以查看。
最后,我想给出我对具身智能确定性时刻的定义:我期待,在未来某一年,机器人能够在80% 的陌生场景中,只通过语言或文字指令,不需要预先训练、不需要采集地图、不需要额外部署,就能完成约 80% 的任务,并且任务成功率达到较高水平。
一旦实现这个目标,就真正跨过了具身智能的临界点。我非常希望这个突破由宇树科技完成,但从行业角度看,无论哪家公司、哪位研究者率先实现,对整个行业、对整个人类科技史,都将是历史性的一刻,会真正点燃整个行业的热情。
我始终相信,机器人、AI、具身智能领域,不是一家公司、一两个国家的事情,而是需要全球共同合作、共同推进的事业。无论谁先实现突破,对整个行业都是重大利好。对于一个新兴行业,大家好,才是真的好。我们希望更多人参与进来,一起把技术和产品做得更好,共同推动行业走向成熟。