原标题:特斯拉人形机器人明年就能上线?专家:马斯克想得太简单了
选自IEEE
作者:Evan Ackerman
机器之心编译
编辑:泽南、张倩
通用人工智能(还是实体)是明年就能造出来的东西?机器人领域的专家有不同的看法。
「它会被用于处理无聊、重复和危险的工作,那些人类最不愿意做的事情。」特斯拉 CEO 伊隆 · 马斯克说道。
人形外观,FSD 芯片加持,马斯克的特斯拉机器人在昨天的 AI Day 上出尽了风头,也刷新了人们对于未来机器人助手的认知。
马斯克在活动中并没有提及机器人的售价是多少,只是说最迟明年会有原型机问世,到时它的脸上会装备一块屏幕,以显示「有用信息」。
如果人类社会真正进入高度自动化时代,体力劳动将是一种选择而非必须,全民无条件基本收入(Unconditional Basic Income)将成为常态,也就是说,机器人将对经济产生「深远」的影响。「但现在还不行,现在这台机器人还无法工作,」马斯克说道。
这个上台跳舞的显然是真人。
最近几年,我们似乎很少看到科技的大跨步前进,电动车和手机都受限于电池技术的发展,连屏下摄像头也是反复首发,最近刚刚「实用化」。马斯克的一通发布让人们高呼看到了希望,不过在惊艳的开场过后,也是时候冷静下来思考了。
这件事真的有可能成功吗?
昨天,来自知名学术期刊 IEEE Spectrum 的 Evan Ackerman 就对此进行了一番批判。作为一名资深编辑,Evan 自 2007 年加入之后已经发表过超过六千篇有关机器人和科技领域的文章。让我们看看他是怎么说的。
Evan Ackerman:做人形机器人?马斯克似乎想得太简单了
在 Tesla AI Day 行将结束的时候,伊隆 · 马斯克突然放出了「特斯拉机器人」(Tesla Bot)概念,这是一个重 57 公斤,高 152.4 厘米的电驱动「通用」人形机器人。
「概念」是指除了模型以外,马斯克只展示了 PPT 并谈了谈他对机器人的看法。这让我觉得,坦白地说,有些天真。根据六分钟时长的演示内容,马斯克似乎突然认为特斯拉已经准备好去制造自动人形机器人了——就像是在说,技术已经出现了,为什么不去做呢?
公平地说,马斯克在可回收火箭和电动汽车等领域的成功确实值得赞赏,但人形机器人大不相同,而且要复杂得多。在航天领域,SpaceX 成立之时我们已经有了火箭技术,以及前沿领域的探索。而对于电动汽车,我们已经有了汽车、电池、传感器和 DARPA 自动驾驶竞赛。我这样说并不是想要贬低马斯克对于 SpaceX 和特斯拉所做的事情,而是在强调人形机器是一个非常不同的挑战。
与火箭和汽车不同,人形机器人不是一项已有技术,需要远大的理想、高水平的团队和持续的资金投入。有了人形机器人,还有更多、更难的问题需要解决,我们距离实际解决方案还很远。
几十年来,许多非常聪明的人一直在积极探索这些方向,而且在软硬件,尤其是软件方面,仍然有很多非常基本的技术挑战,这些突破可能是实现马斯克愿景所必需的。
这些基础突破对于特斯拉来说是不可能的吗?当然不是不可能,但看看马斯克所说的话,我不认为他对于「让机器人做有用的事」有着深刻了解。为什么这么说呢?首先让我们看看马斯克说了些什么。
「我们的汽车是带轮子的半智能机器人。」
我不知道这话是什么意思。半智能?我猜按照这种理解蟑螂也可以被划分为半智能的,但暗示机器人在某种程度上实现了人类直觉的一部分是荒谬的。此外,自动驾驶汽车运行在高度受限的环境空间内,而且特斯拉的自动驾驶目前还面临着很多众所周知的问题。
「有了完全自动驾驶的计算机(即部署在汽车端侧的推理引擎,之后还将继续进化)和 Dojo 超算,以及所有识别世界的神经网络,机器就能理解如何在真实环境中导航,把这些迁移到人形机器人身上自然也是顺理成章的。」
这确实是特斯拉目前研究的方向。但是,特斯拉汽车的神经网络是以汽车的角度审视世界的,它们寻找汽车需要理解的东西,对其他任何事情都一无所知,这会给 AI 带来各种各样的问题。与导航 APP 相同的是,自动驾驶汽车在一个由道路和相关事物组成的世界中运行。你不能只是把它「放在」一个人形机器人上,就期待它能管用,除非你想要它做的就是走在街上并遵守交通规则。
这里马斯克的意思好像是通过足够强大的算力来通向「通用的机器人 AI」,据我所知这和机器人领域的思路大相径庭,尤其是对于物理机器人来说。
「特斯拉在传感器、电池和执行器方面具备优势,所以我认为明年的某个时候原型机就会出炉。」
通过足够多的资金投入,特斯拉可以构建一台马斯克所说的人形机器人,这是合理的。那么明年能做到吗?当然可以,但问题不在于构建一个机器人,而是让机器人做有用的事情,我认为马斯克在这里进入了自己的知识盲区。
没有足够机器人技术经验的人似乎常常认为,一旦你构建了机器人,你就解决了大部分问题,所以他们专注于机械方面的东西,比如执行器,它会是什么样子以及它的反应速度,力量跟能耗。但这只是一小部分,更难的问题出现在你拥有一个机械功能强大的机器人之后。
「这个机器人是打算在为人类打造的环境中导航的。」
这句话道出了开发人形机器人为数不多的理由之一,我甚至不确定这个理由是否真的足够充分。人类的世界充满了各种不同的环境类型,到处都是对机器人不友好的东西。而且一个 125 磅的人形机器人天生就是不稳定的,面临各种安全问题。
为了让机器人在人类的环境中自由行动,波士顿动力和敏捷机器人公司已经努力了几十年。这是一个超级难的问题,我不知道马斯克为什么觉得自己可以在这么短的时间之内做到更好。
波士顿动力前段时间放出的失误 demo。
马斯克在演讲中提到的「人类水平的手(human-level hands)」就是一个很好的例子,解释了为什么我觉得马斯克没有意识到这个机器人背后的工作量。「人类水平的手」是什么意思?如果这里指的是有五根手指,能像人类一样感知环境并具有一定的灵活性,那么这种手其实已经有了,只是比较脆弱、昂贵。从硬件的角度来看,要想把这种手做得实用,背后涉及巨大的工程量,这也是大家不愿意这么去做的原因。多数机器人用的是更简单、更稳健的方案,即只安装两三根手指夹持器。
特斯拉能解决这个问题吗?只要有足够的时间和金钱,我相信他们完全能做到。但这个做到了,机器人的其他部分呢?硬件足够强大了,软件呢?这里想说的是,我们现在讨论的是一个大问题中的大问题。至于整个问题有多大,马斯克似乎并没有考虑。
「…… 去完成那些危险、重复、无聊的任务。」
这句话说得好,这也正是机器人该做的事情。但马斯克自己也知道,让机器人去做这些事情很难。这并不是因为机器人不够有能力,而是人类的能力太强大了。我们为各种能力和能力的多样性设置了很高的标准,但这些标准并不总是显而易见的。即使这些标准很明显,机器人也可能无法有效地复制它们。
「我认为打造一个真正有用的人形机器人的难点在于,它能在不经过明确训练、没有逐行指示的前提下在人类的世界中导航吗?你能否对它说,『请拿起那个螺栓,用扳手把它固定在车上』,或者『去商店帮我买一下这个清单上的食品』?」
其实,当机器人清楚地知道环境中都有什么的时候,它们已经能够脱离逐行指示在环境中导航了。如果这里的环境指的是「道路」、「我的公寓」或「购物中心」,这就是一个解决程度高达 95% 的问题。但真正令人头疼的是剩下的 5%。如果你说的是「我的公寓加上附近的任意一家食杂店再加上公寓和食杂店之间的一切」,那整个环境就变成了一个很难结构化或预测的空间。
如何在这些空间中移动本身就是一个问题。里面有楼梯吗?有很重的门吗?有斑马线吗?有很多人吗?对于那些背后有人监控的轮式送货小机器人来说,这个环境已经够复杂了,更别说一个拿着东西的人形自主机器人了。走进食杂店,从架子上取下东西放进小推车,然后还要安全地推着小推车,这些都是尚未解决的前沿机器人问题。即使是在有机械臂的轮式工业机器人身上,我们也很少看到这种成果,甚至在研究中都很少。当前的情况是,如果没有针对任务进行专门设计,让机器人「拿起那个螺栓」都不是件容易的事。
正如马斯克所说,特斯拉明年有可能造出某种 Tesla Bot,但我认为不会是概念图上展示的这种。或许它可以站起来走两步,承受一两次撞击,还能识别并抓取一些简单的物体。但在完成这些之后,他们的进程会慢下来。我不认为特斯拉能赶上波士顿动力或敏捷机器人公司。或许他们最终会开发出一个类似 ASIMO 的东西,只能贡献令人印象深刻的 demo,但实际上什么都做不了。
马斯克此举还有一个让我比较不安的地方:他所描绘的关于 Tesla Bot 的愿景似乎在暗示,他轻而易举就能超越在人形机器人领域努力了几十年的机器人专家。马斯克似乎觉得,他能完成前人都没有做到的事情:构建一个有用的通用人形机器人。他似乎在暗示,通用人形机器人其实没那么难做,只要有更聪明、更勤奋的人,投入更多资金,我们可能早就把它攻克了。
我觉得他错了。但如果特斯拉真的投入时间和金钱去解决一些机器人领域的难题,或许他们真能取得一些成果,进而推动整个领域的发展。我觉得能做到这一点就已经算得上成功了。
原文链接:https://spectrum.ieee.org/elon-musk-robot
NVIDIA对话式AI开发工具NeMo实战分享
开源工具包 NeMo 是一个集成自动语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)的对话式 AI 工具包,便于开发者开箱即用,仅用几行代码便可以方便快速的完成对话式 AI 场景中的相关任务。
8月26日20:00-21:00,系列分享第2期:使用NeMo快速构建智能问答系统。
智能问答系统简介
智能问答系统的工作流程和原理
构建适合于NeMo的中文问答数据集
在NeMo中训练中文问答系统模型
使用模型进行推理完成中文智能问答的任务
直播链接:https://jmq.h5.xeknow.com/s/how4w
报名方式:进入直播间——移动端点击底部「观看直播」、PC端点击「立即学习」——填写报名表单后即可进入直播间观看。
交流答疑群:直播间详情页扫码即可加入。