黄仁勋请王兴兴讲了具身智能的“三个难题”

0 0

当地时间3月17日，宇树科技创始人、CEO王兴兴在英伟达GTC大会上发表题为《如何迈过具身智能的ChatGPT时刻》的在线演讲，针对当前具身智能持续升温、产业临近关键拐点的行业背景，系统研判了产业所处阶段、技术路径与核心瓶颈，回应了 “机器人何时迎来属于自己的ChatGPT时刻” 这一行业核心议题。

王兴兴指出，尽管市场热度不断攀升，但真正具备强泛化能力、能够在陌生环境中稳定执行任务的通用具身智能模型仍未出现，行业整体仍停留在“临界点之前”，未来1至3年将成为决定能否实现突破的关键窗口期。

王兴兴认为，如果机器人能够在80%的陌生场景中，仅通过语言指令完成80%的任务，即可视为具身智能迈入“确定性时刻”，这一节点将类似大模型领域的ChatGPT时刻，推动行业从展示走向规模化应用。

围绕这一目标，他总结了当前三大核心挑战：一是模型表达能力不足，难以生成和执行复杂、多样化动作；二是数据稀缺，需提高对视频与仿真数据的利用效率，降低对真机数据依赖；三是强化学习缺乏规模化复用机制，训练成果难以积累。

在技术路径上，他更看好基于世界模型与视频生成模型的方向，认为其上限更高、数据来源更广，但同时也面临仿真与真实世界难以精准对齐的关键难题。

王兴兴强调，具身智能的发展不是单一公司或国家可以完成的工程，而需要全球协同推进。一旦临界点被突破，将成为具有历史意义的产业转折时刻。

以下为王兴兴讲话的精简版：

各位来宾，大家好。我是宇树科技创始人王兴兴，非常高兴在此做一个简单分享，今天我分享的题目是：如何迈过具身智能的确定性时刻。

大家知道，最近几年具身智能虽然非常火热，但真正泛化性足够强的具身智能模型，其实还需要一段时间才能诞生。换句话说，目前大家还没有实现真正意义上的通用落地效果。这也是未来几年，快则一两年、慢则两三年，我们整个行业需要突破的临界点 —— 谁能率先突破，谁就有可能真正点燃全球具身智能大规模应用的前夜。

01 深耕布局：宇树全系列机器人产品矩阵

黄仁勋请王兴兴讲了具身智能的“三个难题”

宇树科技2016年成立，我最早做四足机器人大概是从2013年开始，到2016年正式创立公司。我在人形机器人领域的起步更早，2009年读大一本科的时候，就做过一款小型人形机器人。

最近几年，我们公司也推出了多款人形机器人与四足机器人产品，其中最具代表性的，是2024年5月发布的G1人形机器人。从某种意义上说，这款机器人已经成为全球范围内非常经典的一款机型，国内外很多机构、企业都在使用，甚至不少公司在参考、学习我们这款机器人的设计方案。

黄仁勋请王兴兴讲了具身智能的“三个难题”

G1最大的特点是机身相对小巧，性价比非常高，身高大约1.3米，重量三十几千克，自由度数量高，腿部等关键关节配置完整，传感器与机身整体紧凑度也很高，因此在易用性、外观美观度上在全球范围内都具备很强的竞争力。我认为，即便再过十几二十年回头看，这款机器人依然会是一款经典型号。

黄仁勋请王兴兴讲了具身智能的“三个难题”

去年，我们又发布了A2这款中型工业级机器狗，性能指标非常突出，可用于室内和室外的巡检、巡逻等任务。

黄仁勋请王兴兴讲了具身智能的“三个难题”

同期我们还发布了H2大尺寸人形机器人，身高1.8米，人体比例更好，灵活度更高，尺寸更大，适合承担一些体力类工作，在工厂、农业等场景会更加适用。

黄仁勋请王兴兴讲了具身智能的“三个难题”

前段时间，我们发布了小型机器狗A12，具备基础防水能力，负载能力达到十几千克级别，续航时间也很长，硬指标在全球同级别产品中处于领先水平。未来我们希望这款机器人能够真正走进消费场景，比如陪伴用户徒步旅行，帮助背负包裹，让出行更加轻松方便。

02 核心突破：机器人运动性能与稳定性升级

黄仁勋请王兴兴讲了具身智能的“三个难题”

在北京举办的世界机器人大会相关赛事中，我们的机器人拿到了1500米、100米等项目的冠军，这是非常标志性的成果。

G1也是我们公司第一款拿下多项金牌的人形机器人，到目前为止，它也是全球公开数据中跑得最快的人形机器人之一，长跑1500米大约只需6分多钟，已经超过一般普通人，不过短跑速度目前和人类相比还有差距。

黄仁勋请王兴兴讲了具身智能的“三个难题”

另外，我们在去年也做了大量软件升级：比如机器人在任意动作姿态下都具备抗冲击能力，摔倒之后可以自主起身。这是非常关键的技术，因为我们相信，机器人大规模应用，必须在各种复杂环境、极端情况下保持稳定，出现意外也能自己恢复。

黄仁勋请王兴兴讲了具身智能的“三个难题”

这也铺垫了我们的算法在规模化落地中的优势：我们的算法对不同硬件的适配能力较强，可以在多款机器人平台上迁移使用，人类能完成的大量动作，我们的机器人都具备学习和复现能力。

像前空翻这类动作，我们基本可以做到100%的成功率，至少我在公司内部和外部展示中，从来没有见过失败。当然，一些特别复杂的动作，在地面湿滑等特殊条件下，仍可能出现不稳定的情况。

今年我们还推出了更大尺寸的机器人，因为G1相对小巧，负载和手臂力量有限，要真正进入工厂、家庭，承担更重的体力工作，需要更大的机身与更强的负载能力。

这类大型机器人可以学习更复杂的作业任务，但因为自重更大，近距离存在一定危险性，所以如果大家现场见到这类大型机器人，建议保持2—3米的安全距离，避免被手臂或腿部意外触碰导致受伤。

黄仁勋请王兴兴讲了具身智能的“三个难题”

去年，我们的产品、我本人以及公司，也很荣幸获得了《时代》周刊的相关评选认可。

过去一年，我们在AI方面做了很多升级：包括基础跑步、舞蹈动作、武术动作，在任意干扰下的快速稳定与恢复，以及去年下半年推出的全域遥操作系统，这些都是非常有价值的技术。我们认为，当下以及未来几年，全身深度强化学习技术，在很大程度上已经解决了绝大部分问题，虽然仍需要继续完善，但本质上已经不再是瓶颈和难点。

03 春晚实践：机器人系统能力的集中展现

黄仁勋请王兴兴讲了具身智能的“三个难题”

今年2月，我们的机器人登上央视春晚“五波特”节目，获得了国内外广泛好评。为了这个节目，我们把能找到的中国传统功夫动作基本都梳理了一遍，最开始筛选了大概100个动作，最后保留了几十个有代表性的动作，包括大家熟知的醉拳、双节棍、舞棍、舞剑等，基本覆盖了典型的功夫形态。

我们还挑战了很多高难度动作，比如单脚原地连续空翻，对腿部电机压力非常大；还有蹬墙上墙，我们没有采用传统单步增强的方案，而是采用两步上墙，让整体高度更高、视觉效果更好。节目中舞棍部分，我们使用了灵巧手，可以稳定抓握棍棒；在义乌分会场，更大尺寸的G2机器人以“大圣”形象亮相，也具有特殊意义。

为了“五波特”节目，我们对机器人也做了专门改装：

第一，把头部激光雷达换成128线3D激光雷达，方向朝向天花板，避免现场人群遮挡，让机器人能获取更完整的周边环境信息；

第二，我们使用了预训练全身 AI模型，而不是单独训练单一策略模型，其能力覆盖度更高，训练更方便，硬件兼容性更强，走位速度、复杂动作组合能力都更优秀。

简单来说，我们的机器人在执行复杂动作时，可以瞬间暂停、瞬间稳定、瞬间切换到下一个动作。在早期技术方案里，如果训练的是单一固定策略，动作中途无法暂停，强行暂停很容易摔倒，而我们的机器人可以中途稳定停住并切换动作，极大方便了动作调试与组合编排。

除此之外，我们还开发了全身状态感知模型，让机器人更好地完成感知与决策；同时搭建了集群控制系统，可以调度几十台、上百台机器人完成复杂走位与编队表演。

黄仁勋请王兴兴讲了具身智能的“三个难题”

前段时间我们还发布了小型高性能机器狗As2，是动力性能更强的小型化平台，自重约18千克，负载能力强，可以搭载吸尘器等设备，同时我们在其中融入了更仿真的拟人、拟动物运动模型，在小尺寸平台上也能实现强运动能力与作业能力。

去年下半年我们重点完善的全域遥操作系统，实用性很强，非常适合大规模数据采集。当然目前全球范围内的遥操作方案仍有不足：机器人动作完成度和真人相比仍有差距，复杂动作下脚部或身体会出现抖动，操作体验仍有提升空间，但整体稳定性已经非常不错。大家看到的相关视频都是 1:1 真实速度，没有加速，可以直观看到机器人的运动速度。

黄仁勋请王兴兴讲了具身智能的“三个难题”

我们一直希望，未来可以实现机器人自己生产机器人。因此我们也在把大模型技术应用到人形机器人上，让机器人进入我们自己的工厂，参与人形机器人的制造与装配。这是一件非常有趣也非常有意义的事情。

当然目前在复杂工位，比如关键模组装配，因为涉及零件多、工序复杂，成功率还不算特别高；但抓取单个或少量零部件、单工序或少工序的动作，在数据充分训练后，基本可以达到100%成功率。从全球范围来看，多工序、长任务、涉及细小零部件的精细操作，仍然是极具挑战性的课题。

04 双向发力：运动能力与作业能力同步推进

黄仁勋请王兴兴讲了具身智能的“三个难题”

我们公司始终认为：运动能力和作业能力同等重要，两条路线必须同步推进。某种意义上，运动能力是机器人能够“干活”的先决条件——机器人要完成任务，首先动作库要足够丰富，一个模型能表达出各种各样的动作；其次必须足够稳定，在执行动作时保持可靠。所以运动能力是非常核心的基础。

这就像自然界的动物，蚂蚁、老鼠、狗，大脑认知未必复杂，但运动能力极强。所以运动智能反而是相对更容易率先实现的智能，也是实现更高层级智能的前提。因此我们一直高度重视运动能力，同时也在持续推进机器人的实用化、作业化能力。但客观来说，“让机器人真正可靠干活”，目前在全球范围内仍然难度很高。

过去几年，我们和众多知名高校、科技企业展开合作，基于我们的硬件平台进行软件开发，共同推动行业发展。大家可以明显感受到，最近一两年整个人形机器人行业进展非常快，这种快速进步不是靠一两家公司，而是全球范围内中美等多国企业、科研团队、高校共同努力的结果。每当看到行业不断出现新成果、新技术，我都非常高兴，相信大家也是如此。

我们过去的很多研发工作，都基于英伟达的芯片与仿真环境，这也是行业内非常普遍的选择。同时我们也坚持开源，基本每隔一个月就会开源算法、数据集等相关成果，也建立了技术社区，分享前沿论文、数据集、研究观点、相关项目与开源代码链接，欢迎大家关注与使用。

05 关键瓶颈：迈过具身智能“ChatGPT时刻”的核心问题

黄仁勋请王兴兴讲了具身智能的“三个难题”

回到今天的主题：如何迈过具身智能的确定性时刻。我认为行业必须清晰面对并解决以下几个核心问题：

第一，提升模型对任务的表达能力，突破泛化瓶颈。目前很多模型只能完成基础动作，无法实时生成、表达各类复杂、非常规动作。如果模型连动作都无法有效表达和生成，就更谈不上高质量执行。未来需要进一步优化多模态模型、感知模块、编码器与解码器结构，并让其与多模态模型更好地结合。

第二，提升模型对多元数据的利用效率。机器人领域的数据和语言模型不一样，真实机器人数据非常稀缺。如果必须依赖海量真机数据才能训练出可用模型，整体效率太低。因此我们要更多使用视频数据、仿真数据，减少对真机数据的依赖，用更少的真实数据实现更好的训练效果。互联网视频数据体量极大，如果能高效利用，将极大降低对真机采集的压力。

第三，提升强化学习的规模效应。目前行业普遍存在一个问题：训练完一个新动作，相关数据就被丢弃，新任务要重新训练。如果能把多场景、多任务的数据整合到统一大模型里，实现二次复用、持续迭代，就会形成更强的规模效应与指数级进步。这也是强化学习领域非常值得探索的方向。

06 未来方向：定义具身智能的“ChatGPT时刻”

黄仁勋请王兴兴讲了具身智能的“三个难题”

从技术路线来看，最近几年计算智能领域非常活跃，基于VR模型、视频生成模型、世界模型的路线都受到大量关注。我们认为，世界模型与视频生成相关模型的天花板更高，数据来源更广，更有可能成为主流方向。

2024到2025年，我们开源了自研的基于视频生成的世界模型：机器人可以先“想象”未来动作，再与实际机器人运动对齐执行，视频生成效果非常好。但目前全球范围内仍存在一个难题：视频模态与真机执行的精准对齐。视频里可以做到几乎零误差，但在真实机器人上，哪怕只差1毫米，效果也可能天差地别。未来把视频生成模型与强化学习结合，会是非常有价值的方向，这套模型我们完全开源，包括训练代码和数据，大家都可以使用。

相比之下，传统VR模型的天花板相对更低，尤其在泛化能力上仍存在明显瓶颈。我们的相关训练架构也已开源，在官方GitHub上可以查看。

最后，我想给出我对具身智能确定性时刻的定义：我期待，在未来某一年，机器人能够在80% 的陌生场景中，只通过语言或文字指令，不需要预先训练、不需要采集地图、不需要额外部署，就能完成约 80% 的任务，并且任务成功率达到较高水平。

一旦实现这个目标，就真正跨过了具身智能的临界点。我非常希望这个突破由宇树科技完成，但从行业角度看，无论哪家公司、哪位研究者率先实现，对整个行业、对整个人类科技史，都将是历史性的一刻，会真正点燃整个行业的热情。

我始终相信，机器人、AI、具身智能领域，不是一家公司、一两个国家的事情，而是需要全球共同合作、共同推进的事业。无论谁先实现突破，对整个行业都是重大利好。对于一个新兴行业，大家好，才是真的好。我们希望更多人参与进来，一起把技术和产品做得更好，共同推动行业走向成熟。

# AI资讯