2021-02-28 00:22:35
科学家们提出了一种计算机程序,该程序可以掌握1980年代的各种探索游戏,从而为更多自给自足的机器人铺平了道路。
他们创建了一系列算法(用于解决问题的基于软件的说明),可以完成经典的Atari游戏,例如Pitfall。
以前,这些滚动平台游戏对于使用人工智能(AI)来解决具有挑战性。
该算法可以帮助机器人更好地导航现实环境。
这仍然是机器人技术和人工智能领域的核心挑战。有问题的环境类型包括灾区,可以派出机器人来搜寻幸存者,甚至只是普通家庭。
本研究的工作属于AI研究领域,即强化学习。
研究中使用的许多游戏都要求用户探索包含奖励,障碍和危险的迷宫。算法家族统称为Go-Explore,对以前解决游戏的尝试进行了实质性的改进,例如以巧妙地命名为Montezuma的Revenge(于1984年发布),Freeway(1981)和上述的Pitfall(1982)。
研究人员做到这一点的一种方法是开发算法来建立他们已经访问过的区域的档案。
研究人员Adrien Ecoffet,Joost Huizinga和Jeff Clune在回答通过电子邮件发送的问题时说:“我们的方法确实非常简单明了,尽管在科学上取得突破通常是这样。”
“我们的方法之所以没有被考虑,是因为它与历史上用于解决强化学习社区中的这些问题的主导方法(称为“内在动机”)有很大不同。在内在动机中,没有将探索分为像我们一样返回和探索,探员只是因为发现新领域而获得奖励。”
内在动机方法的问题在于,在寻找解决方案时,该算法可能会“忘记”仍然有待探索的有希望的领域。这称为“分离”。
团队找到了一种克服此问题的方法:通过编译其访问过的区域的档案,该算法可以返回到有希望的游戏中期,以此作为进一步探索的起点。
但是,以前掌握这些游戏的方法还有另一个问题。科学家告诉英国广播公司新闻:“他们依赖于可能在任何时间点采取的随机行动,包括当特工仍在朝着实际需要探索的地区前进时。”
“如果您的动作必须准确准确,例如游戏中有许多危险可能会立即杀死您,那么这种随机动作会阻止您到达您真正想要探索的区域。”
为此的技术术语是“失效”。
久负盛名的《自然》杂志上介绍了这种新方法,通过将返回先前访问过的区域的过程与探索新区域的过程分开,从而解决了出轨问题,并以不同的方式加以解决。
该团队成员是在加利福尼亚州的Uber AI Labs雇用时进行工作的,他们说,这项工作适合用于在家庭或工业环境中引导机器人的算法。
他们说,Go-Explore旨在解决强化学习中的长期问题。“考虑让机器人为您提供咖啡:几乎没有机会通过随机动作来操作咖啡机。”
科学家补充说:“除了机器人技术外,Go-Explore还已经进行了一些语言学习的实验研究,其中代理人通过探索基于文本的游戏来学习单词的含义,并发现自我行为的潜在失败。 -驾车。”
在Twitter上关注Paul 。
源:BBC(Paul Rincon)
相关阅读
联系客服
手机
微信

顶部