“2025世界大会”于8月8日至12日在北京经济技术开发区开幕,“AI 大模型赋能机器人与具身智能产业新范式交流活动”作为2025世界机器人大会的专题活动于8月8日同期召开。
国家地方共建人形机器人创新中心首席科学家江磊,松延动力创始人、董事长、CTO 姜哲源,灵初智能副总裁黄贝宁,合十思维创始人赵普,非夕科技副总裁胡晓平出席“机器人与具身智能应用场景创新与产业链协同”圆桌对话并演讲。
以下为圆桌论坛实录:
今天上午世界机器人大会开幕式,跟很多的领导专家现场都很感慨,大家知道2022年有多少款人形机器人参加世界机器人大会吗?我记得只有3款。2023年组织了10款。去年是27款。今年是60余款。
我刚刚在下面算了一下远远不止,人形机器人已经超过了我们想象,至少有将近超过200台机器人在世界机器人大会上同台亮相,同台比拼。跟过去相比,季超老师总结的非常对,我们做人形机器人,很多人一问你为什么做人形机器人,我自己的感觉是我们已经做了十几二十年了,一直在做,只是现在这个市场,这个热点,这个技术瓶颈开始涌现出来了。
过去2022年之前总感觉做人形机器人还是挺痛苦的,就像一个永动机,我们的科学原理没有完全突破,到今天我感觉我们找到了路径和方法,也是采用四链融合(产业链、创新链、人才链、金融链)的方法来促进新的赛道开始。
我给部委领导汇报,很高兴中国的人形机器人至少在今天敢于在世界舞台上说我们做到了开局不输,甚至在大脑、小脑、肢体的部分技术上已经领先,上半年很多人很关心半马,松延小旋风跑出的姿态超乎大家想象。在座的都在具身智能人形机器人这个赛道上做了非常精准也是持续不懈的努力。
首先请各位具身智能一线的老总,介绍一下自己的公司以及过去一段时间在人形机器人具身智能获得的突破性的进展。
姜哲源:大家好,我是松延动力创始人姜哲源。我们公司是2023年9月成立的,主要做两个大方向。
第一个方向是双足人形机器人。
第二个方向是仿生机器人脸。
双足人形机器人大家对我们的印象比较深的是来自于刚刚江总讲到的上半年人形机器人半程马拉松,冲线来讲第二名和第三名都是我们,奖牌拿了第二名的奖牌。
双足人形机器人像跑步、跳跃、空翻、舞蹈各种姿态都能完成,我们也会参加即将举办的全球人首届运动会,我们会参加里面一部分项目。
仿生人脸今天在我们展台可以看到,已经达到了非常拟人的程度,包括交互的能力已经是全球领先了,这是主要的两个方向。
江磊(主持):有脸部的机器人才更有温度,才更适合与人交互。下面有请黄总介绍一下公司和产品。
黄贝宁:大家好,我是灵初智能黄贝宁。灵初智能是一个专注于双臂双手灵巧操作的具身智能公司,是2024年9月成立的,到现在不到一年。公司有非常优秀和年轻的研发团队,刚才做报告的公司联合创始人陈源培是一个00后的天才少年,给大家做了非常学术的硬核的报告,讲述了灵初关于灵巧手操作的进展以及当前能实现的很多能力。
从公司的角度来说,我们是非常务实的致力于将灵巧手的操作应用于现实场景。刚刚有很多做灵巧手的业内同仁也提到当前灵巧手真正用起来的非常少,我们灵初觉得以我们的能力是可以让灵巧手用起来的,而且拥有灵巧手的机器人也一定是具身智能机器人的最终的形态。
我本人过去十多年一直在从事人工智能产业化工作,在多个行业里有将AI、机器人技术从早期、到落地,到成熟产业化,实践过这样的完整流程。现在我在灵初智能负责落地场景的研发工作,很高兴能跟各位专家同仁一起探讨。
江磊(主持):黄总提到一个非常重要,前面很多人在分享数据工厂。现在我们收集的数据我一直认为还需要再往下发展,也许现在收集的数据不足以高精度。就看前面这个汇报,灵初智能还能搭脉,把手搭在人类的脉搏上,不知道这是一个什么信号,回头有机会可以专门做一个怎么让机器人真的搭脉,这是一个很期待的产品。
下面请赵总分享你们公司的情况。
赵普:我是合十思维创始人赵普,来自MIT数据科学工程管理计算机科学。合十思维创业于2023年4月,致力于解决具身智能在人形机器人硬件大脑端以及小脑一体化本体怎么协同操作的终极目标。
我们的目的不是让机器人替代人,而是更好的协同人,这两年的时间自研了自己的本体,在运动控制算法和小脑方面做了一些突破。同时全球唯一的神经形态类脑角色算法做了一些突破,对于物理世界的识别和小脑的协同和机器人本体的协同做了相应的改进,申请了一些技术专利,我们公司现在是一家创业型公司。
江磊(主持):我其实想替大家问你一个问题,为什么你们公司叫合十思维?
赵普:合十思维并不是佛教阐述的合十礼的意思。我们公司的logo左边是一个机械手臂,右边是一只人手。汉字里面合十加一块儿是个舍字,我们都是搞技术的,技术是欲先取之,必先予之。乃合十为舍,以舍未得。在技术上付出了什么,也会得到用户的回报。
《中庸》里有一句话叫“博学之、审问之、慎思之、明辩之,笃行之、人一能之,己十之;人十能之,己百之。”实际上就代表今天有这么多在场的嘉宾包括机器人大会参会人员参加这个活动,大家的目标就是为了一起把这个机器人搞好。合十不光光是佛教的礼,而且握手也是合十,give me five也是合十。双手碰拳也是合十,其实就代表未来硅基生命和碳基生命怎么样在人类社会里可以协同发展。这是一个大概的愿景。
江磊(主持):我一直觉得具身智能这个技术的原创就应该出现在中国,有中国的传统文化思想,又有国际化的视野。另外一直说人工智能是不确定性的,其实我们中国人最适合的就是不确定性思维。这些都是具身智能文化的思维,也期待有更多的公司把中国的传统文化跟现代科学做结合。
最后请胡先生做公司分享。
胡晓平:大家下午好!我是来自非夕科技的胡晓平。我们是成立于2016年的企业,主要的创始团队来自斯坦福机器人实验和人工智能实验室。
非夕始终还是坚信机器人操作能力的提升对于机器人的应用落地是非常关键和重要的维度,而操作能力的提升更主要的就尽可能的仿人化,我们把人的手感或者触觉抽象为机器人的力控能力,把人的手眼配合的模式抽象维层级式智能实现操作泛化能力的提升,从而让机器人可以实现各行各业的落地和应用。
经过了几年的探索,我们已经实现机器人在工业制造、农业生产、医疗服务等跨行业、跨领域的应用场景,也期待未来跟各位同仁能够助力,尽快实现具身智能应用不断的突破,让机器人真正的服务于人。
江磊(主持):非夕我们也都很熟悉了,2024年落户上海,到上海第一个找了李飞飞团队的博士卢老师,就是他们的联合创始人,又创立了后面一些公司。也是在具身智能上有非常好的探索。
为什么希望他们逐个介绍一下,在过去我们国家具身智能经历了非常高速发展的时期,包括今天下午台上四家公司,今天下午组织了十几家最顶级的具身智能公司联合在一起,大家可以看到具身智能在我们国家的发展速度,上场季超老师已经把为什么要把具身智能当做企业的颠覆性技术当做源动力来发展,然后取得这么好的情况。
其实应该先让大家总结一下具身智能给我们这个行业带来了哪些颠覆性技术,我就跟大家讨论一个问题,未来大家提了VOA预训练结合人形机器人以及各种机器人给整个行业都带来了颠覆,而且已经非常热了。我就想请教各位老师一个问题,下一阶段具身智能发展新的热点、新的机遇在哪儿?当前面临的最难的卡点问题在哪儿?
胡晓平:非夕从成立之初最早期就把机器人+AI这两者整合在一起发展的,虽然现在可能在具身智能或者机器人+AI这个概念已经很熟悉了,但是在89年之前就已经认知到这样的方向,并且坚持到现在也是非常不容易的一件事。
随着我们在产业侧的不断探索和应用,我们发现两个维度的发展对于具身智能非常关键和重要。一个就是力控,一个就是应用场景。
人类在完成各种操作,会非常依赖于力觉信息,比如我们组装某一个物体或者抓取某一个物体,人类会习惯于用手眼配合的模式,虽然这对于人来说是一件非常容易或者自然的事情,但是对于机器人来说,却是技术路线上新的突破。力控不仅仅能提升机器人的操作能力,也是机器人和人交互安全性的保障,这也是非夕过去多年探索和积累的最主要的技术方向。
可以看到,当机器人具备了人类的手感,就可以用同一个标准的产品服务于各行各业,既可以完成自动化生产、又可以实现柔性的食品加工、既可以按摩理疗、又可以给人刮胡子等等。因此,对于具身智能来说,其发展也少不了力控的信息,这也是为什么非夕孵化的穹彻智能,主打“以力为中心”的具身智能大模型发展的原因。
其次是应用,具身智能发展的优势在于其通用泛化的能力,因此应用场景的选择对于其技术落地是非常关键和重要的一环。可能过去看到很多做具身机器人的企业把机器人放到了工业现场比如汽车工厂进行落地探索,我所理解的这个应该只是一个过渡。工业应用追求的是可靠和稳定,和具身机器人的通用泛化从底层逻辑上来说就不是一个维度的事情。我们认为具身智能的场景落地最佳的还是为人服务,在家庭场景落地,这就要求机器人的通用能力得到充分的提升才可以,而目前无论是数据的积累还是模型的迭代,还需要更多人的研发和投入,愿景非常美好,现实也很骨感,需要大家共同努力。
江磊(主持):刚才提到了非常重要的词“力控”,估计大多人觉得但是大多数也不觉得力控为什么对机器人这么重要,今天时间短就把问号存储于大家的心中,也许有可能听到非夕关于机器人做力控的进一步探索。
第二词我听到的是非夕在探索产业落地方向。下一个也请赵普赵总谈一下具身智能会走向何方,我们的产业会往哪个方向发展?
赵普:感谢主持人,我一直对具身智能这四个字有一些摇摆和保守的态度。我们知道具身智能拆开来讲什么叫具身智能,底层逻辑可能是怎么去perception、imagination,再到他的行为execution。但是实际上我们从汉语的字面来讲的话,一个就是对自身的认知,一个是对外部物理世界的认知。
现在可以看到全世界无论是像特斯拉Optimus、波士顿Atlas,他们知道自己是机器人吗?其实并不知道。包括我们知道无论是传统的工业机器人的PLC,还是看到宇树像王兴兴王总,包括姜总的小顽童在马拉松跑得那么好,机器人在干什么它并不知道,包括我们机器人现在有一些动作。
可能今天在楼下展台有的机器人的灵巧手动作做得非常牛,拧开了一个瓶盖,但是实际上它对拧开瓶盖的动作有什么意义没有任何认知,包括为什么要拧开这瓶水,甚至这瓶水在它眼里就不是一瓶水就是一个三维电源,根据三维电源把基坐标把标的物坐标做了转化,输出了一种移动参数。
我们讲我们做机器人底层逻辑是人,我们未来是要把这个机器人怎么做得更像人更懂人。我刚刚讲的一点就是合十思维有一个全球的功能性仿脑专利,就是让机器人在本体端怎么去更加认知这个物理世界。
以前我们研究人脑的时候,发现人类在梦游的时候有一个特别神奇的地方。人(高级动物)和一般的哺乳动物最大的区别就是大脑的语言神经中枢有两个模块,一个是布罗卡区,一个叫威尔尼克区,这个叫语言输出的部分。
其他的运动模块,现在机器人一直在强调的就是控制技术,怎么让它跑得更好、跳得更好,跑马拉松跑得更远,它的续航、控制层、决策层怎么识别到这个物理世界。但是实际上我们可以看到人类的大脑接受的比特数量这么小,也可以在梦游的时候没有任何意识,双目无神也不会认识你,即便他是你的亲人,他也通过他自己大脑所带的导航避障系统,绕开周围把这个家里打扫一遍,然后就睡过去了。早上起来你问他你梦游了,他说没有我不记得了。
那证明其实我们人类很多行为都是原发的,渴了就拿水就拧开,这个动作并没有需要很多的预训练。就像马斯克之前在人工智能大会上讲过的,难道你在你妈妈肚子里进行了十个月的预训练的数据吗?你的数据量哪来的?其实这个也是一个悖论,因为大家知道我的底层可能是哲学,但是知道哲学怎么去演化成数学。
我觉得人工智能包括具身智能未来最大的管理,就是从控制层面强调用指令的同时,如何去感知人类这个物理世界,如何去有温度的感知。就像有一天当机器人运动能力达到顶峰的时候应该更去关注人自身的需求,就像我们自己的VLA的模型,它不光能够做动作,当有一个人可能今天嘴里刁一个烟的时候,就像一个服务生很有眼力见拿出打火机给你点上了,而不是说我拿打火机的动作是预训练好的,是为了表示人类的意志。
我觉得人形机器人可能和具身智能一样,具身智能不是说我今天给一个智能音响加一个AGV的底盘,喊一声小爱同学就是一个具身智能。我更希望看到未来更多这个行业的人,能够透见到人类智能适应性的本质,而不是说一个长得像外观一样的机器或者robert,他可以像人类一样跑步或者做了一些你觉得它能够做到的动作,它就确实理解了这个动作的本身,这是我的一些浅显思考。
江磊(主持):刚才赵总说的观点,大家可能接收起来有一点信息量非常巨大。其实我觉得赵总用这个故事给大家讲,大家有没有想过我们人类可能是这个地球上唯一在考虑什么是具身智能,什么是人形机器人的生物,我们是唯一具有反思深思和进化能力的生物,也是我一直期待下一阶段具身智能需要给大家带来的一些新的想法方式,我也是听完赵总的表述以后,也是引发了更多的思考。
下面把时间交给黄总,看看我们从手的角度。我们都说文明来自于双手,用手的角度来看具身智能下一步的发展是什么样的方向与重点?
黄贝宁:刚才说到谈谈现在整个具身智能当前以及后面发展的趋势,江总说目前这个阶段最流行的词是VLA。但是我想问一下在座各位有多少人在现实中与VLA有过深度的接触?包括本次展会有很多先进的演示demo,可能展示的都是比较短的过程,以至于有时候不太能够看出VLA在这个过程中发挥了什么作用,甚至搞不清楚到底哪个是VLA做的,这是当前VLA应用的典型情况。
灵初最近做了一个很有意思的事,我们做了一个完全用VLA实现的打麻将机器人。这个机器人打麻将的过程,是通过大模型的视觉来看牌桌上有什么牌确定抓哪个,包括牌桌上哪儿有空可以把牌放在哪里,整个打麻将所有逻辑、思考过程都是用大模型的方式驱动的。在打的过程中机器人会像我们用DeepSeek这样的大模型一样,输出它的思维链,展示它现在的想法:我现在手头有什么牌,别人已经出了什么牌了,现在打什么更可能赢。这是基于传统算法的麻将AI做不到的。
我们现在的形式是3个真人和这1个机器人对打,玩家在这个过程中通过语音和肢体动作和麻将机器人交互,要说:“我要碰”,“我胡了”等等,还有正常的肢体动作打牌、弃牌。我个人在参与的过程中,觉得和机器人打牌有一种非常奇妙的感觉。虽然可能打麻将只是一个很小的局部的事,但在这样一个真正VLA驱动的场景里,确实能获得与基于传统技术做的机器人以及电脑游戏上打麻将非常不一样的体验。
在实现这个麻将机器人的过程中,我们深度的感知到具身智能机器人涉及的内容非常综合,打麻将的机器人虽然只是一个展示VLA大模型的小场景,但事实上包括了双臂、双手的动作,语音的交互,表情及思维链的展示。我们现在是用一个屏幕展示机器人的表情,但在开发的时候就想到是不是有一个像人的皮能做表情会让大家感受更好,可能确实是这样的。
这也就带来下面一个话题,具身智能下一步的发展。我认为一方面在越来越多的场景里会有像麻将这样的VLA能够落地,让大家越来越多的体验到它和以往技术的区别。
另一方面,具身智能的总目标是要实现通用的、能做各种事的机器人,这样必然要综合各种各样的技术。具身机器人需要有双臂、双灵巧手;可能打麻将的过程中是不需要脚的,但是作为一个具身智能机器人来说应该有脚;同时它应该能说话,也应该能听懂大家说话;应该具有触觉,有很好的力控,甚至应该拥有很好的外观,有表情能表达情绪。
从这个角度来说,我们很难定义具身智能哪方面的技术是最重要的,在真正场景里会发现哪个环节其实都挺重要。反而目前情况是这些方方面面的技术里还存在很多短板。比如我们认为对于一个实现通用操作能力的机器人来说,灵巧手就是当前最短的一版,所以灵初致力于在这块取得一些突破;相应的今天在座的各位厂商同仁所做的技术也大都是针对于目前的各种短板,比如触觉、力控、双足行走。
往后的趋势里,我们应该期待大家做出来的各种突破性技术可以集成到同一个机器人本体里,体现出综合的能力,这是产业必然的发展规律。从目前的情况来看还远远没有做到这个程度。现在各家的机器人都各具特色,但没有哪家机器人能做的很综合;大家的机器人分别开发了很多能力,也没有哪个机器人可以把市面上所有机器人能做的事全都做到。未来把各种技术综合起来,是产业界最应该做的,而且也是最能做到的一件事情。
江磊(主持):你们是WAIC带到现场了,这次带到现场了吗?
黄贝宁:这次在A馆京东的展区,本来麻将是一个Demo项目,但是大家看了以后发现很不错,觉得是一个可以卖的东西,所以在京东展区展出这个打麻将的机器人。
江磊(主持):大家有机会体验一下,2014年李世石跟计算机下个围棋,我感觉直观上体会不到技术难度,我们一听黄总说这个打麻将眼睛也要看,手也要摸。眼神也要动了,绝对是我们非常有意思的,大家有机会到展台体验一下。
接下来请姜总分享一下。
姜哲源:非常同意黄总说的把表情加上麻将机器人是很好的方向。刚刚的问题是具身智能下一步的发展方向,我的研究方向是做双足机器人运动控制的,所以说主要从这个方向来谈一些看法。
要回答这个问题我们要以终为始看这个事情,之前很长一段时间以来有一个争论,最终的终极通用具身智能到底需不需要双足人形机器人,是不是一个轮式底盘就足够了,这个问题其实是大家很久以来存在很大争议的一个问题。比如说一年前或者两年前问这个问题,争议都会比较明显,但今年这个事情会逐渐的形成共识。双足人形机器人我们觉得还是很不错的。很多人质疑这个事是否能够成为终局,其实质疑的点在于有什么必要用双足机器人,但今天站在这个时间点我们可以反问一个问题,为什么不用双足机器人,它比轮式差在哪儿。
之前很多人纠结这个问题的时候讲说轮式的成本会更低,稳定性更好。今天我们可以看到有非常多的极其廉价的双足机器人都发布了,包括之前发布的N1、N2以及宇树发布的L2已经把价格干到4万以下了。而据我了解,很多相对性能比较好的轮式底盘的价格还在10万以上,其实今天双足人形机器人的成本已经被打下来了,未来从长远来看,有可能双足人形机器人还是会比轮式稍微贵一点,但这个成本的差距已经不足以构成购买决策上的差异了。
第二点就是轮式底盘的稳定性,总体而言还是要比双足好一些的,双足不一定摔,在可能做一些动作的时候会发生位置的偏移,需要迈几步腿,稳定性会差一些,对于操作带来了很大的难度。其实核心今天如果要看未来双足尤其是全身控制往哪个方向发展的话我们要以终为始的看,双足比轮式差在哪儿我们就要补哪儿,双足比轮式强在哪儿,多花了一点成本,到底强在哪儿了,这两块是我们主要要补强的。
第一个未来可行的方向就是全身运动控制下的全身遥操作,今天轮式底盘的人形机器人其实遥操作已经相对比较成熟了,但是全身人形和腿部控制,来实现一个稳定的、丝滑的摇操作对于双足人形机器人而言,目前还没有实验室和企业能够做到非常丝滑,这个事情如果不解决的话,那么双足相比于轮式,在长远来看还是会有一个竞争的劣势。这是第一个以中为始看需要解决的问题,也是未来我们认为的一个很重要的技术发展的方向。我们要做前沿的技术储备,一定是要以终为始看这个事。
第二个就是双足会比轮式强在哪儿,我们认为主要是两个方面,一个是多臂形的处理能力包括像楼梯、台阶和崎岖不平的地面,包括相对松软的地面,双足都是有能力处理的。第二就是面临相对复杂的家庭场景下,比如说地上东西摆的很乱,双足落足点规划让它能够迈出这个地方,如果用轮式的话可能直接平推扫过去了。
这两点其实都需要我们做一个结合感知的运动控制的系统,这两天也看到了美国一家公司发布了一个基于视觉的端到端的运动控制的模型,那个模型其实让我们看到了双足底盘相比于轮式底盘而言的一个很大的优势,能够在各种不同的地形下、不同路面上都能够很稳定、很丝滑的完成运动,我觉得这两个方向,第一是解决全身遥操作的问题,第二是结合感知来完成运动的问题。这两个是未来在双足locomotion这个方向上很重要的两个课题。
江磊(主持):我想借这个机会分享三点。之后请四位嘉宾准备一句话,赠送给在场所有观众以及线上的观众,要入身具身智能最应该做的是什么?
今天的论坛叫AI大模型赋能机器人与具身智能产业新范式这个论坛,其实很明显,就是我们要用AI大模型,用人形机器人再造一个、新范式,大家这么高热情,相信也很直接,未来的市场在哪里,我们去赚多更多的钱。我感觉有三点体会。
第一,从2025年开始不应该不再相信人形机器人跟具身智能,就应该相信人形机器人是可以给我们带来未来的,每一年巨大的变化,这个希望跟信仰是需要大家建立的。
第二,今年只是具身智能的起点,很多人跟我交流,有一个数据说2025年1-7月,融资总额已经超过240亿了,大家说是不是具身智能已经没有机会了,我更想跟大家说的这只是一个开始,具身智能带给我们人类未来的产业发展想法刚进入到入门。现在刚进入到VOA预训练阶段,机器人如何能思考、能学习、能进化那是下半场还要再去探索的。所以这里会创造更大的机会。
ChatGPT5.0发布,OpenAI整个市值就会突破5000亿美金。有一些时候老说人形机器人大家融资那么多是不是到天花板了,现在看来在台上几位还有一百倍、一千倍往上走,所以大家要保有信心。
第三,产业,那么多的信仰,那么多的希望,还是希望机器人技术真的改变生活生产的方式,也是我们为什么花那么大的精力来思考这件事,也是在台上所有企业家,机器人能不能替我们刮胡子,能不能跟我们打打麻将,排解一下我们的忧愁,能不能在这么热的大热天还有人在检查我们的胸牌。其实这些安保工作人员依然很辛苦,怎么用技术来解放人类做更高级的事。
这是一直希望做的一个想法和初衷,也是今天特别想分享的三点心得与体会。
姜哲源:我送大家一句话叫因为相信,所以看见。我们相信AI,相信人工智能,相信数据驱动的力量,所以能够看到具身智能产业的巨大机会,谢谢!
黄贝宁:我希望所有对于具身智能感兴趣的人都能够先体验、再实践。从具身智能的广阔前景来看,现在投入、关注的人还是远远不够的。具身智能需要无数人一起努力才能真正向目标迈进。
赵普:我说点接地气的,我觉得人形机器人也好,具身智能也好,未来总有一天会像消费级的产品一样,会像买个化妆品或者买汽车一样走进一家4S店,有一个机器人走过来说“先生你好,我是你的人形机器人,现在只需要首付2.8万,月供3000元能把我带回家,我会洗衣服做饭”,等等这样的东西,我觉得这样的生活一定会很快到来,也是我的憧憬,希望大家可以跟我们这些做具身智能和机器人行业的人一块儿完成这个梦想。谢谢。
胡晓平:我觉得加入具身智能这个行业可以让大家发挥各自充分的想象力,确实这是一个非常性感的行业,随着技术的发展可以逐步的把大家的想象变成现实。谢谢!
江磊(主持):非常感谢各位坚守到现在,这么多人还在相信具身智能,相信人形机器人,今天也是展会第一天。希望大家听更多的演讲嘉宾的观点,看更多机器人现场表演,也许明年我们的机器人真的会走入千家万户。
今天我们的论坛到此结束。谢谢大家!
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
评论