智能晚报|马毅加入大模型创业,真格基金投资;SpaceX星舰飞行时间破纪录;全球首台一边跟人聊天一边工作的机器人来了
何昕晔杨秋秋吴洋洋王怡然Key Points
● Figure AI的人形机器人可以一边跟人说话一边完成工作了;
● Deepmind推出游戏智能体SIMA,可以完成近600种游戏指令;
● 智谱获北京人工智能产投基金投资,自身也将继续投资生态公司;
● 马毅创立忆生科技,真格基金入股;
● 连续两次只飞了几分钟后,SpaceX星舰第3次试飞近1个小时;
● 苹果收购加拿大AI初创公司DarwinAI。
Figure AI的人形机器人
可以一边跟人说话一边完成工作了
3月13日,人形机器人公司Figure AI在社交媒体发布一段演示视频,展示了其推出的机器人Figure 01在对话、决策、行动方面的最新能力。
与之前波士顿动力、特斯拉等公司展示的人形机器人只能走路、跳跃不同,Figure AI的人形机器人已经可以一边跟人说话一边根据人的要求完成工作了。这是全球首台可以做到与人一边交互一边工作的机器人。
Figure 01目前可以做什么?
在视频演示中,Figure 01可以完成以下行为:
描述其周围的环境(包括与其对话的人类、苹果、盘子和沥水架);
处理指令不清晰的请求(听到「我饿了」的指令,递给对方一个苹果);
解释行为原因(被提问为什么递苹果,回答「这是桌面上唯一的可食用的东西」);
计划行动并执行(被提问该如何处置餐具,回答「应放入沥水架」并准确执行)。
公司的AI团队负责人Corey Lynch称,视频中演示的所有行为都是基于Figure 01已经习得的能力,而不是远程操作。
背后的技术原理
Figure AI的创始人Brett Adcock称,这些进展基于公司与OpenAI的合作,OpenAI提供了视觉推理和语言理解能力,Figure AI的神经网络主要负责完成动作。具体来说,Figure 01的驱动系统由3个部分组成:OpenAI的多模态大模型、神经网络策略和全身控制器。
理解部分:在对话过程中,当人类发出指令后,Figure 01的摄像头会获取即时图像,麦克风会捕捉语音并转化为文本,这些文本和图像信息被输入OpenAI提供的多模态大模型中。模型在理解输入信息后,会生成文本回答,然后转成语音,通过「说」的方式回答人类的指令,并同时对系统需要运行的行为作出决策,将特定的神经网络权重加载到GPU上以执行策略。
动作部分:Figure 01的动作部分由神经网络视觉运动Transformer策略驱动,将像素映射为动作,网络以10hz的频率接收机载图像,并以200hz的频率生成自由度(DOF)为24的手腕和手指关节部位的动作。
全身控制部分:而全身控制器会追踪手部的动作,并协调「身体」的其他部位,保证机器人整体的平衡。
值得注意的是,OpenAI大模型的上下文理解能力使得Figure 01展现了基于短期记忆的连续对话能力。比如视频中被问到「你能把它们放在那里吗?」Figure 01可以理解「它们」指的是杯子,「那里」指的是沥水架上。
OpenAI的具身智能野心
Figure AI是一家成立于2022年的人型机器人研发公司,主要成员来自波士顿动力、特斯拉、Google等公司。今年2月底,Figure AI宣布获得6.75亿美元B轮融资,投资者包括OpenAI、英伟达和亚马逊创始人贝佐斯等,Figure AI的估值达26亿美元。
在本轮融资后,Figure AI将与OpenAI 合作,为人形机器人开发下一代AI模型。本次发布的视频显示,双方的合作已经取得了成果。
《新皮层》曾报道,OpenAI对具身智能具有野心,在OpenAI创业早期,公司内部就曾拥有一个机器人团队。不过,机器人是个需要同时兼顾硬件和软件的复合项目,当时的OpenAI无法同时布局两个方向。OpenAI的机器人团队因此解散,一些成员离开后创立了Covariant。
不过OpenAI并未因此彻底放弃具身智能。去年3月,来自挪威的机器人制造商1X Technologies宣布完成2350万美元的A轮融资,由OpenAI和Tiger Global领投。而今年3月13日,OpenAI又投资了想要为机器人构建「大脑」的AI初创公司Physical Intelligence,但与以硬件开发为主的1X Technologies和Figure AI不同,Physical Intelligence聚焦可应用于机器人的软件系统。
参考链接:
https://twitter.com/Figure_robot/status/1767913661253984474
DeepMind推出游戏智能体SIMA
可以完成近600种游戏指令
3月13日,Google子公司DeepMind推出SIMA(Scalable Instructable Multiworld Agent,可扩展、可教导的多世界AI智能体),该智能体(agent)经过训练之后能够以类似人类玩家的方式在多种游戏完成近600种游戏指令。
SIMA是怎么训练的?
DeepMind团队与8个游戏工作室合作,在9种不同的视频游戏上训练和测试 SIMA,包括《无人深空》《英灵神殿》和《模拟山羊 3》等多款开放世界冒险游戏。DeepMind记录了人类玩家在这些游戏中的键盘和鼠标数据,并通过添加描述性标签将键盘鼠标操作和用户的操作意图联系在一起。随后,这些数据将作为文本数据库输入到SIMA中,用于学习操作和游戏指令之间的关联性。
此外,DeepMind还使用Unity引擎构建了自定义的物理环境,SIMA需要在其中创建模型来测试对对象操作的理解。DeepMind记录了一对人类玩家的游戏数据以捕获语言指令:一个人类玩家控制游戏,另一个给出下一步做什么的指示。随后,玩家们独立游戏,展示「是什么导致了他们在游戏中的行为」。这些数据都被提供给SIMA,以学习预测屏幕上接下来会发生什么。
最后,人类评估了SIMA在不同游戏中的表现,生成用于微调其性能的数据,用于进一步提高SIMA在不同类型游戏中的操作能力。
SIMA能做到什么?
据Google发布的Blog,SIMA可以执行近600种动作,从探索到战斗再到工具使用,例如「向左转」或「前往宇宙飞船」或「穿过大门」或「砍倒一棵树」。研究人员避免了具有暴力行为的游戏,以符合Google的人工智能道德准则。不过,目前SIMA还无法完成更复杂的指令,如「寻找资源」和「建立营地」,因为AI智能体目前还不足以完全代替人类意图执行行动。
Google在博客文章中表示,SIMA不需要自定义API来玩游戏或访问源代码,它只需要两个输入:屏幕上的图像以及用户提供的简单自然语言指令,就可以执行相应操作。这也意味着SIMA可以在任何虚拟游戏环境中进行以上操作完成交互。
开发SIMA不是为了在游戏中获胜
Google强调,SIMA并不是为了赢得比赛而训练的,而是为了在经过训练之后可以运行它并执行相应的游戏操作。SIMA并不是要取代传统的游戏非玩家角色 (NPC),而是充当游戏环境中的动态参与者,甚至有可能学习与玩家沟通。
同时,SIMA的开发也意味着AI智能体能够具有更强的通用性,不仅仅是聊天和生成图像视频,而是可以控制计算机执行复杂命令。Google表示,将会继续构建更通用的人工智能系统和智能体,它们能够将LLM(Large Language Model)模型的功能转化为有用的、现实世界的动作,从而对网络和现实世界中的人类有所帮助。
参考链接:
https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
智谱获北京人工智能产投基金投资
自身也将继续投资生态公司
3月14日,国内头部大模型初创公司智谱AI宣布,2024年年初已完成新一轮融资,北京市人工智能产业投资基金参与投资。同一天,智谱AI在北京举办媒体沟通会,谈论了公司在商业化、多模态等方面的进度。
关于投资方和估值
2024年1月初,北京国有资本运营管理有限公司注册设立了北京市人工智能产业投资基金等4只政府投资基金,合计规模达500亿元。对智谱AI的投资是北京市人工智能产业投资基金成立以来投资的第一家AI大模型公司。
智谱AI没有披露此次融资的具体金额。在此之前,同为大模型领域的Moonshot和MiniMax先后获得新一轮融资,估值约25亿美元。
产品和商业化
《新皮层》曾报道,智谱AI成立于2019年,是国内最早入局大模型赛道的公司之一,也是目前国内头部大模型厂商代表之一。1月16日,智谱AI在首届技术开放日发布新的基础大模型GLM-4,对标GPT-4。技术开放日当天,智谱也推出了类似GPTs和GPT Store的GLMs和GLM Store,像素级对标OpenAI,让用户可以基于智谱基础模型定制自己的个性化agent,并发布到应用市场上。
3月14日的媒体沟通会上,智谱称已与2000多家企业合作,其中深度合作企业达到200家,包括金山办公的WPS、蒙牛、上汽、分众传媒等公司,涉及金融、新能源、汽车、消费、传媒、传统制造等行业。
尚未有成熟视频生成模型
对于年初OpenAI发布的视频生成模型Sora,「首先我并不吃惊,第二我们也正在做,我仍然会按照我们的步调,我们对这件事情的认知,一步一步地去实现AGI。」张鹏在沟通会上称。
张鹏称,智谱也在布局相关领域,他声称智谱的GLM大模型本身拥有多模态能力。智谱推出过多模态理解模型CogVLM、文生图模型CogView和视频生成模型CogVideo。早在2022年,CogVideo就能通过输入文字生成4秒左右的视频,不过该模型之后未见更新。
通过「Z计划」继续投资生态公司
去年10月30日,智谱面向全球大模型创业者发布「Z计划」,为后者提供资金、技术、算力和场地等全方位支持。该计划发布以来,智谱已投资面壁智能、聆心智能、幂律智能、智览医疗等生成式AI相关初创公司。
就在3月12日,视频生成公司生数科技刚刚完成数亿元新一轮融资,智谱也是投资方之一。
3月14日等沟通会上,智谱宣布「Z计划」进一步升级,联合生态伙伴发起总额10亿元的大模型创业基金,用于支持大模型原始创新,覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等方向。
马毅创立忆生科技
真格基金入股
企查查信息显示,香港大学计算系主任、数据科学研究院院长马毅已于2023年9月创立一家名为「忆生科技」的公司,公司总部位于深圳,经营范围包括人工智能基础软件开发、人工智能理论与算法软件开发、人工智能通用应用系统等。
加入香港大学前,马毅是加州大学伯克利分校电子工程与计算机系教授。2023年6月,马毅团队发布名为「CRATE」的架构,称该模型为可用数学解释的「白盒」Transformer,试图解决现有深度学习模型普遍难以解释的「黑盒」问题。
今年2月,真格基金成为忆生科技投资方。马毅目前在忆生科技持股53.44%,任董事长和总经理,真格基金合伙人刘元为公司董事。真格基金对此不予置评。
参考链接:
https://arxiv.org/abs/2311.13110
连续两次只飞了几分钟后
SpaceX星舰第3次试飞近1个小时
3月15日,SpaceX星舰举行第三次试飞,火箭升空后顺利完成一二级分离,但在重返大气层期间与地面失去信号近14分钟,直播宣布星舰第三次试飞结束。
这次试飞持续了近一小时
本次飞行测试的目标包括:载荷舱门开关测试、舱内推进剂转移实验、发动机真空点火以及在轨减速再入大气层。本次发射使用的载具为星舰S28和超重型助推器B10,这也是SpaceX首次使用电推力进行矢量控制星舰。
原定发射时间为当地时间周四上午8点,但由于风速增强等因素,星舰最终推迟到8点25点火发射。在发射4分钟后,星舰完成一二级分离。随后,马斯克在X上发表推文,向星舰团队表达祝贺,称星舰「已达到环绕速度」,即7.9千米/秒。此时,星舰所产生的离心力于地球引力相等,可以围绕地球作圆周运动。在此期间,星舰分别成功完成了载荷舱门进行开关测试(为方便后续发射星链卫星)和推进剂转移任务(在顶部舱和主油箱之间转移1万千克的液氧)。
本次飞行计划中,星舰需要通过两次点火「掉头」并按计划落入印度洋中,然而在第48分时,星舰一级遥测信号失联,随后直播宣布降落返回点火失败,星舰在印度洋上空解体。
此前两次发射分别只飞行了3分钟和8分钟
2023年4月,SpaceX星舰在多次推迟发射事件后首次发射。根据SpaceX的计划,助推器B7的33个「猛禽」发动机计划在飞行169秒后关闭,并在三秒后Ship 24分离。如果计划顺利,原型机Ship 24将达到轨道速度,飞行大约90分钟,最终降落在夏威夷附近。然而,在发射3分钟后,由于未能成功与推进器分离,星舰在高空发生爆炸解体。
2023年11月,SpaceX星舰第二次试飞,载具为Ship25和助推器B9。在飞行过程中,一级和二级火箭成功完成「热分离」,助推器的33台发动机也全部点火成功,而且飞船通过了最大动压点,二级火箭成功点燃。但大约在火箭升空的8分钟后,二级火箭发生故障,火箭被迫触发其自毁系统,发射再次失败。
星舰的难点在于:要重复使用,就要更重,引擎更强
星舰是迄今全球体积最大、推力最强的可重复利用运载火箭,如果成功发射并成功回收,星舰能够一次性将100多吨物品送入轨道。按照计划,星舰未来将在地月轨道之间执行长期飞行任务,同时在火星任务中作为货船和载人太空船等。
然而截至目前,星舰并没有成功完成过一次试飞任务。作为太阳系中密度最大的行星,地球的大气层厚度有1000千米以上,这对典型的不可回收的轨道火箭来说,能够送入轨道的有效载荷质量仅仅能达到火箭总体质量的2%。而为了星舰火箭能够完全重复可使用,火箭需要更多的助推剂来帮助火箭成功着陆,这也会占据更多的有效载荷质量,进而也意味着火箭的有效载荷质量需要达到4%或更多。因此,在星舰的设计上需要尽力提高引擎的效率和结构的高效性,而这些创新性的技术在之前的轨道火箭中从没有实现过。但马斯克强调,「星舰将会像飞机或汽车一样可重复使用,唯一的维护就是燃料的补充」。
从3分钟到8分钟,再到这一次飞行接近1个小时,SpaceX的星舰已取得跨越式进步。
参考链接:
https://www.cnbc.com/2024/03/14/spacex-starship-rocket-third-test-flight-launch.html
苹果收购
加拿大AI初创公司DarwinAI
3月15日,消息称苹果已于今年早些时候收购加拿大AI初创公司DarwinAI,DarwinAI的数十名员工已加入苹果的人工智能部门。
DarwinAI公司的背景
DarwinAI成立于2017年,公司定位是创新型工业4.0公司,希望利用AI的能力改变制造业,主要集中于印制电路板(PCB)等行业。
DarwinAI与滑铁卢大学建立了深度合作关系,其知识产权大多来自加拿大滑铁卢大学教授亚历山大·黄(Alexander Wong)领导的研究,亚历山大曾担任DarwinAI的首席科学家。作为本次收购的一部分,他已加入苹果团队,担任AI团队的总监。
截至2022年,DarwinAI的融资金额约为1500万美元,获得了Honeywell Ventures和Inovia Capital等风险投资公司的投资。
苹果为何收购DarwinAI
DarwinAI的AI技术用于对组件制造过程中的视觉检查,其核心技术之一是使AI系统变得更小、更快。
而苹果希望在iPhone等设备上直接运行AI,而不是完全依赖云服务。更加轻量化和高效的AI能够帮助苹果在各种设备上实现更快速、本地化的智能处理,这与苹果推动设备端智能处理的战略方向相契合。
根据Mark Gurman提供的信息,苹果计划在6月的全球开发者大会上发布最新操作系统iOS 18,AI功能将作为该操作系统的一部分发布。
参考链接:
https://www.bloomberg.com/news/articles/2024-03-14/apple-aapl-buys-canadian-ai-startup-darwinai-as-part-of-race-to-add-features
Bonus
软银集团考虑投资Mistral AI
3月14日消息,日本科技巨头软银集团正在探索对Mistral AI公司的潜在投资。软银已表示有兴趣在Mistral下一次融资时为其提供支持。目前商议仍在进行,双方还没有讨论过确切条款,还不能确定是否会达成协议。交易将使Mistral的估值超过20亿美元。
Mistral AI 2023年5月成立于巴黎,三名创始人是DeepMind和Meta前科学家。2023年9月,Mistral AI发布第一个开源模型Mistral-7B,在众多基准测试中超越了Llama2 13B模型,从而一举成名,成为开源阵营中的有力成员。
今年2月,Mistral AI发布最新闭源大语言模型Mistral Large,并宣布与微软达成深度合作,将其 AI 模型部署在微软Azure云计算平台上。微软也向Mistral AI提供了约1600万美元的投资,这是微软在OpenAI之外投资的唯一一个大模型公司。
腾讯推出图生视频模型「Follow Your Click」
3月15日,腾讯和清华大学、香港科技大学联合推出全新图生视频模型「Follow-Your-Click」,基于输入模型的图片,用户只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。
腾讯称,该模型是首个可以通过上述简单操作实现区域图像动画的I2V(图生视频)模型,主要攻克传统I2V模型的提示词复杂、无法精确定位图像区域等问题。但是,该模型的优势主要体现在生成较短的动作上,在生成较大且复杂的动作时仍面临挑战。
推荐阅读
看更有意思的商业世界,下载《第一财经周刊》。