首页资讯

仿真不稳、真机太贵?机器人数据最优解出现了吗,机器人仿真软件有哪些?

时间:2025-07-28 16:57 作者:字夜

仿真不稳、真机太贵?机器人数据最优解出现了吗,机器人仿真软件有哪些?

2025.07.28


本文字数:2822,阅读时长大约5分钟

作者 |第一财经 乔心怡 张甜甜

近期,加州大学伯克利分校副教授、Physical Intelligence(PI)的联合创始人Sergey Levine在一篇文章中提到,“机器人数据训练,真实世界数据不可或缺”,引起了行业讨论。

这一观点之所以引发关注,是因为它挑战了业界部分企业“以仿真数据替代真机”的做法。在训练成本高昂、数据获取难的背景下,企业该优先依赖成本低、速度快的仿真数据,还是回归真实环境、积累高质量的真机数据,成为摆在每一家具身智能公司面前的一道关键技术选题。

PI 曾被视为机器人领域的 OpenAI,也是国内不少企业的对标对象。7月28日,在2025年世界人工智能大会(WAIC)现场,第一财经采访了多位机器人企业的创始人和技术负责人,试图厘清一个核心问题:在机器人进入真实场景的关键时刻,什么样的数据才真正有价值?

业界难定孰优孰劣

“仿真数据很难涵盖所有物理世界中我们希望机器人完成的任务。”智元机器人合伙人、具身业务部总裁姚卯青表示,Sergey Levine 提出的“叉勺理论”与公司在实验中观察到的结论高度一致:部分局部任务可通过仿真训练完成,但大多数复杂任务仍需依赖真实数据。

“教会机器人使用勺子,可能要上百万次训练。”一位参展工程师举例说,“人类依靠经验学习,而机器人只能靠数据堆积。”

人类的智慧来自经验,而AI的智能来自数据。机器人是被海量数据“喂”聪明的。这些数据可能来自真实数据、仿真数据或互联网数据。

以银河通用为代表的仿真数据优先派,主张自己学得更快、成本更低,甚至能在零真实数据情况下启动。银河通用创始人王鹤曾在接受媒体采访时提到,通过“摇操”采集数据,即让真人戴上一些采集设备来完成机器人要学的动作,对于创业公司而言成本高昂,银河通用选择all in “Sim2Real(从仿真到真机的迁移)”,即主要依靠合成仿真数据。

在WAIC展会现场,第一财经记者看到了银河通用的机器人正在充当服务员,进行物品的拿放、递取。

“有机器人,就有数据;有数据,才有迭代。”擎朗智能CEO李通在接受第一财经记者采访时表示,相比做一两个demo,更关键的是把机器人真正部署到实际岗位上,让它们在真实任务中不断工作、不断犯错,从而积累起对模型训练真正有价值的数据。

在他看来,服务业的应用场景远比想象中更丰富,从餐饮、酒店、商超、机场、4S店、KTV到行政接待厅,每一个场景虽然任务各异,但底层的“动作元素”是可以被归类的——抓取、递送、避障、交互等基础能力构成了岗位的操作核心。“这些元素对大模型来说是可泛化的,但前提是要有足够丰富的真实数据支撑。”

李通强调,“机器人必须在一个明确岗位上达到万级部署量,才可能积累出对模型有效的数据。绝对不是一百台、两百台能解决的问题。”对于机器人落地岗位的选择,李通认为,真正适合规模化落地的岗位,必须是相对清晰、简单、边界明确的任务,而不是“既要干这个又要干那个”的复合型操作。“像抓取、递送这样的基础动作,虽然看似简单,但只要在真实环境中积累足够数据,就能为大模型提供高度泛化的训练素材”。

真实和仿真数据孰优孰劣,眼下或许还难以下定论。一位在WAIC现场的企业创始人告诉记者:“现在没人能说死,因为还没有人靠某种数据路径跑出一个通用智能的完全体。”


鱼和熊掌不可兼得

在机器人落地过程中,如何处理仿真与真机数据的结合,正成为行业普遍面临的一道技术难题。灵初智能联合创始人陈源培在接受第一财经记者采访时表示,这一问题并非首次出现,早在2023年、2024年公司向投资人汇报时,就明确指出“仿真和真机数据不能简单混合使用”。

“当模型成长到一定阶段,它会自动识别数据来源,并对不同来源的数据进行不同程度的权重处理。”陈源培解释说,例如,模型会先判断数据来自仿真还是真机,再决定用仿真做策略搜索,还是用真机做微调。这也意味着,数据混合本身存在技术限制,因此灵初的方案是将仿真用于大规模预训练,再通过少量真机数据完成“最后一公里”的打磨。

北京人形机器人创新中心品牌负责人告诉第一财经,目前公司对机器人进行训练时,仿真数据和真实数据的使用比例为7:3;国家地方共建人形机器人创新中心相关负责人告诉第一财经,公司目前有自建的数据采集中心,真实数据使用比例较高,和仿真数据大概占比为3:1。

在数据结构层面,业内普遍认为真实数据具有不可替代性,但高昂的采集成本是行业“必须面对的代价”。

智元机器人首席科学家、具身研究中心主任、上海创智学院副教授罗剑岚博士表示,目前是具身智能落地的早期阶段,仿真数据具备成本低、易获得的优势,“但仿真不是替代品,真机数据才是主舞台。目前智元所有的多模态大模型、VLA(视觉语言动作)模型100%使用的都是真机数据。”

无论选择何种数据进行机器人训练,业内都面临着“鱼和熊掌不可兼得”的困境。

成立仅一年半,自变量机器人目前正处于产品技术验证(PoC)阶段,与酒店、养老等多个行业客户联合开展项目测试,不断验证其技术在真实、非结构化环境中的高效部署能力。自变量机器人COO 杨倩强调:“我们的核心目标不是快速商业化,而是让机器人在真实场景中真正‘用起来’。”

她认为,仿真技术目前在机器人"下半身"的训练中仍占据主流,例如双足机器人的步态规划与运动控制等领域,仿真提供了不可或缺的低成本测试环境,其价值是毋庸置疑的。然而,当任务重心从"下半身"的移动转移到"上半身"的精细操作——即与商业应用紧密结合的、与物理世界进行复杂交互的任务时,依靠仿真能够到达的操作能力就非常有限。她告诉记者,一旦进入长链条、柔性和高度接触的交互任务,比如完成制作香囊、贴标、递送,仿真所需的工程开销、调参周期和计算成本是巨大的,甚至是不可能完成的。“相比之下,我们更倾向于直接在真实世界进行端到端的数据采集和训练,用较少人力在较短周期内完成训练与部署。”


“我们从训练到调优,只用了大约一周,就让机器人完成了完整制作任务。”她介绍说,“你可以认为它的单条数据很长、成本高,但放在这个复杂任务的学习效率上来看,仿真反而更‘划不来’。”

杨倩指出:“最终算得过账的,不只是采购成本,而是它在真实场景中能不能真正替代人来做事,甚至长期在人效比上能不能跑赢。”

当被问及如何看待同行对仿真路径的坚持时,杨倩表示:“与其在仿真世界里反复调参,不如让机器人直接在真实世界里试错成长。”在她看来,“任务定义”才是决定数据价值的核心变量,“真实数据并不一定贵,仿真数据也未必便宜”。

智元机器人同样明确押注真实数据。目前,智元通过自建专业数采工厂,形成全球最大数据集AgiBot World并开源,姚卯青说:“面对具身智能数据的荒漠,我们选择栽下第一棵树,愿其能成为一片森林。”同时,智元还发布行业首个通用具身基座模型——启元大模型,拥有“一脑多形”能力,可适配其他异构机器人本体。

微信编辑| 雨林

实习生| 小朱

第一财经持续追踪财经热点。若您掌握公司动态、行业趋势、金融事件等有价值的线索,欢迎提供。专用邮箱:bianjibu@yicai.com

(注:我们会对线索进行核实。您的隐私将严格保密。)

Top

1、罗马诺:基耶萨仍然计划离开利物浦,意甲是其最喜欢的目的地,基耶萨 皇马

2、“不能让牌子一挂了之” 生态环境部对两个创建示范项目施行全周期动态监管

3、“你在山姆抢的那瓶我5块9就能喝上”,中产被“瞧不上”的大润发贴脸内涵?

小编推荐

当前文章:http://www.share.mhsc10.cn/IBS/detail/vzltza.html

相关阅读

网友评论

我要评论

发表
取消

字夜