要点:
波士顿动力/Boston Dynamics在官网展示了一项新的研究,通过将ChatGPT、Spot 以及其他AI 模型相结合,开发了一种会说话的“导游机器狗”。在多个测试过程中,导游机器狗甚至被发现具备简单的“自我决策”能力。 AI与机器人的结合,提供了一种在现实世界中落地大型基础模型的绝佳方式,无法预测未来会怎样。但很明显,人工智能的快速发展有可能彻底改变我们生活的许多方面。
科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。
狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。
狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。
联系我们// 相关文章
2023年10月27日,全球顶级机器人开发商波士顿动力/Boston Dynamics在官网展示了一项新的研究,通过将ChatGPT、Spot以及其他AI模型相结合,开发了一种会说话的“导游机器狗” 。据相关视频显示,该导游机器狗能够根据文字、语音提示与人类进行交谈,同时提供了视觉问答功能,甚至可以分析摄像头拍摄的画面,自动生成图像说明。
波士顿动力表示,ChatGPT等大语言模型/LLM展现出了强大的控制和输出能力,可以用于控制物理机器人的行为和决策功能。例如,输入一些特定景点数据、图片等,可让机器人提供逻辑清晰、条理分明的导游功能。此外,还增强了物理机器人的拟人化能力,比如为你讲一个冷笑话、做一个逗你开心的滑稽动作等等。如果釆用传统的方法,这或许是一件非常困难的事情,而现在都却成为“轻而易举”的现实。
导游机器狗工作原理<br>波士顿动力使用了自研的四足机器人Spot作为物理机器人框架,实现了行走、监控、导航、扫描等基础功能。
为了能让导游机器狗说话与人类互动,研发人员为其配备了3D打印的Respeaker V2扬声器,这是一个带有LED的环形阵列麦克风,可通过USB将其连接到Spot的EAP 2实现数据传输。
1) Spot EAP 2) 扬声器3) 蓝牙音箱4) 点臂和夹具相机
使用一台电脑作为导游机器狗的控制大脑,并通过Spot SDK与其实现数据交互。为了让机器狗具备拟人化动作,例如点头,伸脖子等,均使用了Spot的点臂和夹具相机。此外,物理硬件环境搭建完成后,为了使导游机器狗具备对话功能,研发人员使用了GPT-3.5和GPT-4与Spot SDK相结合,并进行了简单的指令微调,让导游机器狗具备了初级导游判断和对话功能。
随后,为了让Spot与人类和环境进行交互,集成了VQA和语音转文本软件。同时将机器人的抓手摄像头和前置机身摄像头输入BLIP-2,并以视觉问答模式或图像字幕模式运行它。该过程大约每秒运行一次,结果将直接输入到提示中。同时,为了让导游机器狗可以实现“听”的功能,研发人员将麦克风数据分块输入到OpenAI的语音模型Whisper中转换为英文文本。此外,为了让导游机器狗能与人类实现对话,需要将人类的语音指令转换成文本用于提示ChatGPT,因此还需要一个转换工具。开发人员在尝试了多种工具后,决定使用了云服务ElevenLabs。
在多个测试过程中发现令人惊奇的现象,导游机器狗好像具备简单的“自我决策”能力<br>向导游机器狗询问Marc Raibert(波士顿动力执行董事)是谁时?它回答“我不知道他是谁,让我们去服务台问一问吧。”到了服务台,导游机器狗继续向服务人员询问Marc Raibert是谁?当研发人员提问:你的父母是谁?导游机器狗走向了Spot V1和Big Dog的展示区,并认为这些机器人是它的父辈们。实际上,它们之间确实有关联。另外,导游机器狗还展现出了有趣的一面,可以主动向路人询问,周围是否有神秘的生物。
波士顿动力表示,未来还会持续优化该产品的功能。该团队为Spot提供了一个“非常简短的脚本”。机器人将该脚本与从其抓手和身体上的摄影机获取的图像结合起来,使其能够在生成响应之前获得有关所看到内容的更多资讯。据该公司称,Spot使用视觉问答模型来为图像添加字幕并回答有关图像的问题。
虽然,波士顿动力公司没有详细说明导游机器狗的未来计划是什么。但它确实指出,它的机器人和人工智能AI非常匹配,所以也许我们将来会看到更多这样的事情。该公司似乎不会很快推出这个附加组件,目前Spot的价格仍然昂贵,约为75,000美元。尽管波士顿动力公司没有透露它将用更先进的Spot做什么,但ChatGPT与实体机器人的相结合,为大语言模型实现物理化落地打开了大门,可以在导游、娱乐、物流、陪伴等领域得到广泛应用。
“AI+机器人”的快速发展
在过去的一两年里,人工智能,特别是“生成式人工智能”领域的进步迅速。自2022年底问世以来,这款由OpenAI推出的聊天机器人程序“ChatGPT”迅速引起全球范围的高度关注,它的爆火掀起了新一轮生成式人工智能/AIGC热潮。和以往类似的聊天机器人相比,ChatGPT的智能化程度大幅提升,帮助人们更轻松地与计算机进行交互和沟通。机器翻译,摘要截取,以及情感分析等功能加成,使ChatGPT具备像真人一般的语言理解能力,甚至在效率上强于人类。 ChatGPT的诞生无疑是AI时代的重要里程碑,也预示着新一轮人工智能技术革命正在加速来袭。
而AI与机器人的结合,更是提供了一种在现实世界中落地大型基础模型的绝佳方式<br data-mce-fragment="1">从今年年初火爆起来的ChatGPT、到ChatGPT与人形机器人的突破,再到如今能实现AI与机器人“对话”,可见发展速度之快,甚至快于大众对其想象。值得注意的是,这些模型可以帮助提供文化背景、一般常识知识和灵活性,这对于许多机器人任务来说都是有用的。例如,仅仅通过与机器人交谈就可以将任务分配给机器人,这将有助于减少学习量使用这些系统的曲线。
随着日益复杂的技术的兴起,自动化和机械化的普及已成为现代社会的标志。而在此过程,也曾有不少人担心,工作岗位是否在未来会被AI 取替?狂呼媒体曾发布一文“ AI人工智能对就业市场和未来经济的影响? ”,已经“预示”了体力劳动者在AI出现后,他们的可替代性甚至不比智力劳动者少。如今,导游机器狗的出现,更是说明了这一点。
目前,机器人的主要用途在于能够提高仓库和工厂等环境的效率,成为了人们对自动化程度提高所导致的就业机会稀缺的合理担忧。虽然自动化确实正在取代许多低技能工作,但它导致劳动力向其他部门重新分配,这种现象称为“劳动力流失”。但与此同时,自动化在重复性、体力密集工作方面的优势使工人有机会重新调整自己的技能并寻求更具刺激性的工作。
事实证明,机器人总体上有助于完成以前需要大量投入的任务和工作。它们具有以多种方式改善我们生活品质的巨大潜力。但同时,由于潜在的恶意以及与安全和隐私相关的其他担忧,关于允许机器人技术扩展的道德仍然存在争议。这种担忧通常与人工智慧的使用有关,但当机器人拥有没有情感的认知时,就没有理由担心了。人工智能是一个快速发展的领域,无法预测未来会怎样。但很明显,人工智能的快速发展有可能彻底改变我们生活的许多方面,而每个方面的趋势都值得持续我们持续关注。