机器人系列|③帕西尼CEO许晋诚:机器人只要能帮人干活就行,不一定要追求AGI
陆彦君吴洋洋Key Points
● 做人形机器人是为了展示触觉传感器的能力;
● 数据采集已有两种模式,我们在创造第三种;
● 半年造出人形机器人不是问题,传统机器人厂商随时可能加入;
● 纯AI太贵了,控制论在机器人领域仍然有市场;
● 机器人只要能帮人干活就行,不一定要追求AGI。
1973年,全球第一款人形机器人在日本早稻田大学诞生。这款名为「WABOT-1」的机器人由加藤一郎研发,重约160公斤,迈出一步要45秒。50年后,人形机器人赛道在生成式AI的加持下成为创投新风口,全球范围内涌现的初创公司们造出一批又一批能说人话还能做家务的机器人。
现在让机器人动起来容易很多,甚至原地空翻都不成问题。新的难点在于,如何才能让这些机器人学会做更为复杂的动作——哪怕没有教过它们,用专业术语说就是能力可以「泛化」,比如在工厂学会流水线工作的机器人,如果回到家里几乎不用训练就能开始干家务,那才是真正的融会贯通。
为了做到这一点,无论是把研发重心放在机器人大脑的公司,还是机器人本体(即身体硬件设计)的公司,都在想方设法获取完成各种动作所需要的数据。并且它们开始意识到,仅仅靠机械地模仿人的动作(即遥控操作)或者在虚拟环境中让机器人通过试错学习,是不够的。其中一度被忽略的一环是触觉。
握杯子时手掌张开的程度、拉扯柔软线路时要小心控制的力度……人的很多动作规划都需要基于触觉反馈。早在日本早稻田大学攻读机器人专业时,许晋诚就意识到了这一点。
许晋诚毕业于日本早稻田大学,师从日本机器人学界权威菅野重树教授,菅野教授是加藤一郎的学生(注:师徒二人曾在1984年共同研发擅长钢琴演奏的WABOT-2机器人)。2021年,他在深圳创立帕西尼感知科技(以下简称「帕西尼」),专门研究机器人所需要的触觉传感器。
帕西尼的公司命名灵感源自人体的特殊感觉神经器官——帕西尼小体,它能够敏锐感知皮肤接触面上的压力变化,精准识别物体表面的材质、粗糙度和光滑度。许晋诚称,帕西尼的触觉传感器目前广泛分布于机器人的手、机械臂和关节上,仅双手的传感器数量就接近2000个。
以传感器为基础,帕西尼也在机器人手(业内称为「灵巧手」)、人形机器人等领域推出了产品,一方面向市场展现其传感器的能力,另一方面也倒逼公司能够在感知智能方面提供更系统性的解决方案,因为传感器不只是个硬件生意,它还涉及整个感知系统如何工作。
在人形机器人和AGI的关系上,许晋诚也相对务实,他认为开发人形机器人不需要一定为了追求AGI,人形机器人未来有可能成为像冰箱、洗衣机、手机一样的消费电子产品,只要能干活就行。
阅读机器人系列的其他两篇文章请移步:
以下是我们与帕西尼创始人兼CEO许晋诚的对话:
做了人形机器人,别人才了解你触觉传感器的能力
新皮层 :不同人形机器人公司重点不太一样,有轮式,有双足;做手的重点也不太一样,手指差别也挺大,帕西尼为什么非常强调做触觉?
许晋诚 :我们的核心产品就是触觉传感器,大部分人形机器人厂商都是我们的客户。我在早稻田大学的时候是做人形(机器人)的,但是在国内,如果要有一些区分度,还是要把商业模式理清楚,我们原本是以整个人形为主,但是这样感觉会分散火力,所以就以触觉作为主要产品,我们本身的技术是全栈的,足以让我们获得融资发展潜在能力。
新皮层:触觉在感知中的特殊性和价值是什么?
许晋诚:目前市面上触觉产品比较少,是因为还比较稀缺,做这种产品的厂家还是很少的,国内做得好的可能就我们一家,我们的销售数量应该也是全世界最多的。大家都想把精力花在迅速可以出成果的地方,视觉就是一个。视觉从二三十年前就在发展了,已经很成熟了,十几块钱就可以买到一个小的摄像头。然而触觉传感器的发展大概只有近十年不到。
新皮层:触觉的难点是什么?为什么那么少人做?
许晋诚:摄像头一样是传感器,拿到传感器数据后,就可以让机器人去理解这张图是什么含义,所以就会有标注工程师出现,有些国家人力成本比较便宜,像特斯拉的FSD(Full Self-Driving,完全自动驾驶)标注基本都在非洲、印度等地做。
触觉不一样,触觉是一个物理接触问题,一定要很耐用,不能碰一下就坏了,这是一个比较大的差异,如果要有很高的耐久性,势必要投入很多研发工作,它是很长研发周期的东西。
新皮层:触觉的使用价值在哪里?在什么样的场景中会用到触觉传感器?
许晋诚:大部分都需要用到,我们现在使用的手机也搭载过触觉传感器,就是一个感受压力的传感器。我们专注于给人形机器人提供传感器,技术要高很多,因为(机器人)要的数据一致性要求很高,不能说同样一个任务,采到的数据不一样,对采集的数据的误差也有了更高的要求,比如我们的触觉传感器接触到物体时,传感器接触面上亚毫米级别的微小形变也能被瞬间捕捉,这样就能为机器人提供滑动、摩擦、纹理、温度等维度的信息,使机器人能在更丰富多元的场景下更好地感知,完成复杂的自适应动作。
新皮层:什么场景需要触觉传感器呢?
许晋诚 :车企在跟我们对接,举个例子,汽车里有很多线路,就像人体内的血管一样,有大量的电线布局在车体里面。日本有一家电装公司专门在做布线这件事,以前是人力去布线,现在是机械去做,问题在于,线非常软,有粗有细,大部分机器人如果做不好力度控制,就有可能损伤线路。这些工作需要大量的力学传感器才能完成。再比如车的内饰板,如果没有力控,内饰板也会被损坏。也有很多晶圆厂来找我们,他们一盘晶圆可能就大概100万美元,他们想要利用触觉或压力传感器做到力度的精确控制。
新皮层 :起到一个监测作用?
许晋诚:传感器就是监测环境用的。它需要一直看着外界情况,跟我们人的手一样,我们人全身都在接触外界信息,传感器也是一样。
新皮层 :相较于人形机器人整机公司,你们的传感器生意更基础?
许晋诚:我们属于上游的供应商,可以供给人形机器人、消费级机器人、复合式机器人,类似国产手机品牌也联系我们合作。我们不会精力太发散,重点会都在触觉传感器及机器人上。我们只会关注一种情况,就是能够在一个机械体中形成感知、规划的闭环,当客户需要在这个闭环里面增加感知信息,我们就会帮助他。但如果客户拿到感知信息之后不去做反馈,不建立从感知到运动规划的闭环,只是单纯用传感器去监听信息,我们就觉得没什么太大价值。
新皮层 :在传感器之外,你们也在做机器人业务,为什么不能专注传感器成为一个小巨头?
许晋诚:假设一个触觉传感器公司没有集成这个功能到机器人制造里面,而是直接开发触觉传感器市场,其实是做不出来的。因为人形机器人是一个载体,我们先把传感器更好地用起来,让大家都看得到,客户在购货时的心理压力是最小的。
新皮层:这算是一个能力的展示?
许晋诚:对,我们大部分的客户来展台看,直接就是想要订(货)了,因为他能直接看到我们的传感器跟机器人之间是如何协作的,能看到多维度触觉数据信息,同时也看到我们传感器在机器人上如何应用。传感器相当于机器人的感觉器官,当传感器与机器人紧密配合时,它们共同构成了一个智能感知系统。可以观察到传感器如何实时收集并处理来自机器人操作环境中的多维度触觉数据信息,如物体的形状、硬度、温度等。这些数据为机器人提供了丰富的感知信息,使其能够更智能地应对各种复杂场景。如果我们什么都没有,只给你一个传感器,让你自己去想象,是很不负责任的。
新皮层:机器人里哪些部位有触觉传感器?
许晋诚:目前都在手臂、手、关节上都有部署
新皮层 :这些部位选择有什么逻辑吗?
许晋诚:因为手臂跟手是有最多物理接触的,机器人不会拿胸腔去撞击任何东西。像人的身体,也是手有比较多的物理接触。
新皮层 :一只手里面大概要多少传感器?
许晋诚:没有一个上限,但是我们是给了一个范例,我们的单独一只多维触觉灵巧手就搭载全球最多的978个多维触觉传感器,单手拥有15种触觉感知能力。
数据采集已有两种模式,我们在创造第三种
新皮层:就机器人业务本身,你们的场景是什么?家庭还是工业?
许晋诚:我们应该会偏向于实际用途。客户买我们的机器人大部分有实际需求,想要解决问题,而不是单纯做陪伴式的。就像在厂房里面巡检,假设巡检环境非常高危,可能随时有液体漏出,在应对众多生产过程中的突发状况时,机器人的作用与价值显得尤为突出和重要。
新皮层 :那种机器人是一定要用人形吗?
许晋诚:我认为概念还是需要推广一下,让大家知道,为什么人形机器人要长得跟人形一样,我们并不想把它做得像人形。
新皮层:这不是最理想化的形态?
许晋诚:我个人认为一个机械臂,一个手可能就OK了,但理不理想不是说我们想,而要依照实际情况而定。目前我们有大量的人类数据可以直接使用,相对来说成本较低的。我们现在源源不绝地在产生文本,这些文本数据都是人类数据,这些数据可以作为训练数据集,用于提升具身智能的性能,另外,还有大量的视频,很多甚至是免费或低成本可获取的。
新皮层:所以是从数据层面的考虑?
许晋诚:肯定的,你拿到这些数据之后才能去做一个泛化模型。我们做一个泛化模型都是基于大量的数据去做,语言模型就是大量的文本堆积。
新皮层 :语言模型是这样,但是空间智能所需要的感知数据是文本化的。
许晋诚:一样的。你可以从视频里面找到人的骨骼,然后我去标注他在视频里面正在做什么,他的行动轨迹,接触物体的角度。即使假设我们没有人类数据,要去采数据,我们也不可能让小动物去采集数据,肯定也要雇大量的低成本劳动力去产生数据。像我们现在就在产生数据,它是源源不断的,伴随着我们的每一个动作与互动,无时无刻不在进行着。所以并不是说人形机器人一定要做成人形,而是现阶段最好的模型泛化途径就是做成人形,因为我们的数据全部都是从人身上来的,这一点要很清楚。
新皮层:数据是一个很大的问题,有人说不同身高或者不同体格的机器人训练出来的数据,不能泛化到另外一个体格的机器人上去,比如特斯拉的数据就不能被其他公司的机器人用。
许晋诚:对,现阶段大家做的遥操(指遥控操作),我们不认为是最好的模式。我们公司内部正在做一个项目,就是采集一个超高维数据再降维,现在还不能透露。
一些机器人公司也找我们拿传感器,他们遥控了机器人之后,机器人手上有触觉传感器后再去做夹持等动作,就可以(把遥操和触觉传感器两方面的)数据收集起来。
新皮层:需要把视觉、触觉各个关节的数据统一起来吗?
许晋诚:不需要的,我们人如果没有摸过什么东西,也会知道一个东西是什么。
新皮层:还有一种做法是构建一个数字孪生空间,去训练机器人?
许晋诚:那个产生出来的叫人造数据,这种数据如果是优质的,可以用,但大部分现在不是优质的。
新皮层:怎么判断数据是不是优质?
许晋诚:成功率。机器人如果在数字孪生环境里面疯狂失败,这些数据就是没有用的。假设我们让机器人行动,我们有1000种方式去绊倒它,若每次尝试都导致机器人跌倒了,那么数据就是失败的。
新皮层 :你的目的不就是绊倒它吗?
许晋诚:就像骑脚踏车,我们有大量的失败经验,但我们想要骑单车,肯定是各种肌肉数据都达到一个正确状态,才能骑行起来。我们要的是当下的正确数据,而不是疯狂失败的数据。
新皮层:但是在数字孪生空间里疯狂失败以后,它自己会找到成功的路径?
许晋诚:对,就是速度很慢。人为什么要通过遥操作去控制机器人?就是我们教它正确答案,成功率很高。假设放在数字孪生世界里,就这么简单的东西要训练20天,用遥操作可能一个小时就学会了。
新皮层:所以遥操作已经是稍微先进一点的模式了?
许晋诚:是的。
新皮层:很多公司都在把重点转到数据,开始做数据工厂,这是今年的行业热点吗?
许晋诚 :对我们做机器人的人而言,这其实已经存在好久了。数据工厂通过集成和处理大量的数据,为机器人提供丰富的训练和学习资源。在数据工厂中,机器人可以接触到各种不同类型的任务和环境。通过分析和处理这些数据,机器人可以更好地理解并适应不同的应用场景。这使得机器人能够在不同的生产线和环境中灵活切换,提高生产效率和灵活性。
半年造出人形机器人不是问题,传统机器人厂商随时可能加入
新皮层:你们现在的主要产品有三个,一个是传感器,一个是手,然后是人形机器人。这三个的开发顺序是什么?
许晋诚 :我们是先做传感器,灵巧手跟人形机器人是在同个时间段进行的。
新皮层:最耗时的产品是什么?花了多长时间?
许晋诚 :传感器是最耗时的、最难的。2021年到现在我们一直都还在研究、迭代,这个东西是改进不完的。现在做到第二代了,整体的抗干扰能力会更强,精确测力的功能更好,成本控制也做得更好,我们的二代传感器可以在1000赫兹采样频率的超高分辨率下测量法向力、摩擦力、分布力、力矩、材质、温度、滑动、回弹等15种触觉信息。
新皮层:你收集的触觉信号需要考虑它怎么跟其他知觉信息,比如视觉信息结合吗?
许晋诚 :我们会做出一个大概的框架给到客户,我们有一个视觉跟触觉的融合框架。
新皮层:可以融合?感觉是不同维度的数据。
许晋诚:其实相关联性很大。我们很多客户会问,你们为什么要跟视觉一起做,我们的答案一直都是:我们不会放弃视觉技术。想象一下,一个盲人试图完成一项任务,他必须依靠触觉和其他感官来慢慢摸索,这不仅效率低下,也容易出错。同样地,如果我们的机器人没有视觉能力,它们也只能依靠预设的程序和有限的传感器信息来执行任务,这无疑会大大限制它们的灵活性和智能性。我们不会放弃视觉,而是会不断努力将视觉技术与机器人技术相结合,推动智能制造和机器人技术的不断发展。只有这样,我们才能为客户提供更加高效、智能、可靠的机器人解决方案。
新皮层:只做触觉就是盲人?
许晋诚 :是的,我们肯定会做视觉与触觉融合,我们视觉可以拿到物体在空间坐标系的位姿,比如说我们就知道录音笔的空间位置在哪里,一旦我们确定物体的位置,接下来就可以交给机器人的“手”去执行任务了。
新皮层 :视觉加上触觉的好处是什么?
许晋诚:视觉让我只知道物体的位置,但是我不知道夹取它之后的状态,搞不好这个东西有1000斤,我拿不起来它,搞不好这个东西它非常脆弱,单看体积,机器人没办法单独靠视觉来判断,所以就需要靠触觉来做冗余检测并执行。
新皮层 :触觉也很难判断,我摸一个东西,只知道它是不是金属或者是塑料?
许晋诚 :可以靠物体回弹性,回弹系数。人为什么知道这个是金属?是因为我们的手是带弹性体的,根据物体的回弹时间,可以计算出这个东西它的硬度大概是多少。如果它特别硬,它的回弹性就会特别快。
新皮层:机器人怎么知道不同材质物体的质地?
许晋诚 :我们会有这些配套的,有纹理识别的,还有软硬度识别的,我们已经有一个数据库,数据库需要无限扩充,永远没有到头的一天,就像文本数据一样,文本数据它也没有收集完的一天。
新皮层 :你们开发最久的是传感器,人形机器人把本体做起来需要多久?
许晋诚 :半年的时间,我们的核心技术也是聚焦在这个方向。
新皮层 :很多人形机器人公司都是成立才半年就摆出了机器人产品,会不会太快了?
许晋诚 :帕西尼在传感器及机器人技术已经有一定的技术积累及研发成果,我们能迅速在短时间内把关节模组设计出来,通过精确的调试和优化让模组稳定地运行起来,当我们成功地将单个模组运行起来后,下一步就是将它们串行起来形成一条闭环系统,随着闭环系统的成功建立,我们再形成更加复杂的机器人系统,进而完成整体的工业设计。
新皮层 :这是因为供应链成熟吗?
许晋诚 :我们国内供应链很成熟。
新皮层 :零部件数量比手机、电脑、汽车要少一个数量级?
许晋诚 :对,对我们来讲不难,因为像我们也有一些客户,他是做传统行业的,想要自己去做这个东西,就做不出来,只能找我们合作。我刚才简化了一下,硬件肯定里面还有布线、设计等问题,对我们有经验的来说,半年就可以造出来。
新皮层:ABB、库卡的单臂已经做了很多年,很精准,甚至比现在很多新创公司都精准,他们是不是只要转个身,改变一下形状,就变得新潮了?你觉得这个可行吗?
许晋诚 :菅野老师(注:菅野重树,日本早稻田大学创造理工学部学部长)很厉害,他让我们几个师兄师弟都能创业,是因为他很早就带我们看了很多机器人公司的需求,我们也去看遍了这些公司的状况。日本四大家族也好,ABB也好,他们基本都流淌着工业型的务实基因,不会因为我们做人形,他就轻易转去做人形,他们可能会研究很久,有了成果他才会出来。
新皮层:他们体量现在也很大,人形机器人现在的体量他们看不上吗?
许晋诚 :人形的市场还没起来,我认为就像你说的,他们转身去做就可以,内部说不定已有预研团队在做这件事情。
纯AI太贵了,控制论在机器人领域仍然有市场
新皮层 :现在机器人的大脑进化到了什么阶段?
许晋诚 :大脑比较慢,因为现在大语言模型虽然做得好,但是它只能给你做初步的判断,要把任务再拆解,还需要有比较多的研究。
新皮层 :ChatGPT发布之后,伦敦曾有一个汽车公司把它加载到汽车上,让汽车在行驶时会自我解释其行为,比如遇到红灯停下来时,AI会解释它为什么停。这么做只有交互价值还是能产生更多价值?
许晋诚 :语言模型现在也进化得很快,按照GPT-4o的能力,我们把场景信息交给它,如果它有机器人的所有运动学信息,它就可以做一些判断。
新皮层:现在你们人形机器人有把大脑能力加进去吗?
许晋诚 :我们是做本地的小模型,不是自己做,自己做很花钱。我们直接用Meta的LlaMA开源模型做。我们要让LlaMA来调用我们的数据库。若想要让我的机器人在物理世界交互,就需要这个物理世界的数据。我们大脑里就存储了各种数据。
新皮层:用感官数据训练后的LlaMA会比普通的有什么不一样?
许晋诚 :不同的数据训练出来的泛化效果会有不同。就像人类,我们并非天生就会把很多不同维度的东西捏成一股,而是在不断学习中将它们捏成一股。语言模型也是如此。
新皮层:现在很多人形机器人公司开始谈论具身智能,在你印象中这个概念是什么时候进入机器人领域的?它似乎是心理学和认知科学的概念?
许晋诚 :2015年左右,说实话这个概念并没有很新。我在菅野老师的实验室里接触到的概念是Embodied Intelligence,我不知道为什么中文叫具身智能,直接看英文理解就可以,「Embodied」的意思就是「实装」,实际装载——我们到底要怎么样实际地把AI装载进机器人产品里。那个时候我们老师希望大力发展AI,因此建立了实验室。
新皮层:所以是比较早把AI引入机器人里面的。早期像波士顿动力,还是基于规则去做机器人控制,它是属于从控制领域做机器人的派别,而不是从AI角度去做机器人,存在派系差别?
许晋诚 :是的,如果一个公司从事纯算法,他们可能会认为AI存在局限性,如果你去问纯控制派,他们会觉得他们的功底非常扎实,基于纯算法和纯数学的方法,基本不会失败。
新皮层:现在是否已经反过来了?
许晋诚 :目前还没有。现在大家不会纯用AI做什么东西,因为太贵了,纯靠AI的东西想要成功,我认为是不可能的。
机器人只要能帮人干活就行,不一定要追求AGI
新皮层:现在大部分人形机器人的整机都是售卖给教育机构?
许晋诚 :教育机构不仅希望获得人形机器人的整机用于教学,同期也是开展一些研究工作。
新皮层:一些人形机器人公司使用的是你们的灵巧手?
许晋诚 :有的。
新皮层:未来人形机器人厂商之间,是否会相互拥有对方的东西?
许晋诚 :现在就是这个状态,这个很正常,人形机器人厂商之间是相互合作,相互促进,这种合作模式才能促进技术创新、资源共享和市场拓展,也让整个人形机器人行业能够持续更好的发展。
新皮层:你现在做触觉,接下来还会做其他知觉吗?
许晋诚 :会做力学。触觉和力学这两个(市场)就很大了。
新皮层:如何评估它的市场规模?
许晋诚 :以人形机器人为例,人形机器人的运动控制需要高精度的动力学技术支撑,本体的5%需要用到力学调节,力学在机器人领域的应用效果日渐受到重视。
新皮层:你的产品在海外市场也有吗?
许晋诚 :在北美也有的。
新皮层 :你们公司现在的团队有多大?
许晋诚 :目前有120人左右。
新皮层 :已经算是相当大的规模了?目前人形机器人公司的规模通常是多少?
许晋诚 :差不多都是我们这个规模。
新皮层:你在2021年开始创业,当时生成式AI还没有特别火爆,那时候你看到什么样的市场机会?
许晋诚 :当时AI已经很厉害了,大概在2017年。在当时,国内外触觉技术的发展相对缓慢,而2021年我刚好毕业,就开始创业。
新皮层:你觉得人形机器人现在处于哪个阶段?帕西尼在什么阶段?
许晋诚 :还是在探索期,大家对于方法和原理目前业界还没有统一的标准,比如旋转关节的模组,有很多种方式去实现运动。我们就专注做传感器。
新皮层:以智能手机为例,人形机器人处于尚未定义清楚的阶段?
许晋诚 :还处于大哥大阶段,价格很贵。
新皮层:它未来有可能变成消费电子吗?
许晋诚 :会的,可能三年内会看到机器人领域的第一个iPhone。
新皮层:你觉得行业发展的最终形态是什么,帕西尼的最终目标是什么?
许晋诚 :我们主要依赖力学和触觉,这对我们公司而言是根本。我们致力于在这方面成为世界最大的公司,将产品应用到系统中。
新皮层:提到人形机器人,大家都会提到做这个事是为了AGI,例如OpenAI和DeepMind认为,如果AI没有在现实生活中生存的能力,不理解空间,没有真实互动,就会影响智力水平,语言仅是文字游戏。你觉得两者之间有关系吗?
许晋诚 :AGI与机器人关系不是很大。我对AGI的定义并不一定是活蹦乱跳的机器人,比如我给你打电话,我们在对话,我询问的内容你都会理解,能回答,对我而言你就是AGI。我们生活在一个由信息构成的世界中,这些信息通过各种方式传递并被我们感知和理解。而AGI作为载体,其实就是处理和利用这些信息来实现与人类的交互和理解。
新皮层:这种说法是否降低了人形机器人的价值?
许晋诚 :人形机器人无需刻意追求AGI,只要能学习并有效运用人类经验,进而在生产、生活等多种应用场景中发挥作用就行。
公司档案
帕西尼感知科技
创立时间
2021年
创始人
许晋诚
核心产品
· 多维触觉人形机器人;
· 多维触觉灵巧手;
· ITPU触觉传感器。
融资历程
· 2021年,获得数百万人民币天使轮融资,投资方为奇绩创坛;
· 2022年12月,获得数千万元人民币Pre-A轮融资,投资方为啟赋资本,浩方创投;
· 2023年10月,获得A轮融资,融资金额未披露,投资方为新奥资本;
· 2024年4月,获得数亿元A轮及A1轮融资,其中新奥资本为A轮领投方,A1轮为北汽产投、南山战新投、盈富泰克联合投资。
推荐阅读
看更有意思的商业世界,下载《第一财经周刊》。