来自皇家墨尔本理工大学的Fabio Zambetta副教授于本周五在美国第33届AAAI人工智能会议上公布了这种新方法。
该方法是与RMIT的John Thangarajah教授和Michael Dann合作开发的,它将“胡萝卜加大棒”强化学习与内在激励方法结合起来,奖励人工智能,使其好奇并探索其环境。
“真正智能的AI需要能够学会在模糊的环境中自主完成任务,”Zambetta说。
“我们已经证明,正确的算法可以使用更智能的方法来改善结果,而不是纯粹粗暴地在非常强大的计算机上端到端地解决问题。
“我们的研究结果表明,如果我们希望在这一领域取得实质性进展,我们能够更加接近自主AI,并且可能成为一个重要的调查线。”
Zambetta的方法奖励系统自主探索有用的子目标,例如“攀爬那个阶梯”或“跳过那个坑”,这对于计算机而言,在完成更大任务的背景下可能并不明显。
其他最先进的系统需要人工输入来识别这些子目标,否则决定下一步随机做什么。
“不仅我们的算法在玩Montezuma's Revenge时自动识别相关任务的速度比Google DeepMind大约快10倍,他们还表现出相对类似人类的行为,”Zambetta说。
“例如,在你可以进入游戏的第二个屏幕之前,你需要确定一些子任务,例如爬梯子,跳过一个敌人,然后最终拿起钥匙,大致按照这个顺序。
“这最终会在很长一段时间后随机发生,但在我们的测试中如此自然地发生了某种意图。
“这使我们成为第一个完全自主的面向目标的代理商,与这些游戏中最先进的代理商真正竞争。”
Zambetta表示,当提供原始视觉输入时,该系统可以在视频游戏之外的各种任务中工作。
“创建一个可以完成视频游戏的算法可能听起来微不足道,但我们设计的一个可以应对歧义的事实,同时从任意数量的可能行动中选择是一个关键的进步。
“这意味着,随着时间的推移,这项技术对于实现现实世界的目标将是有价值的,无论是在自动驾驶汽车中还是在自然语言识别中作为有用的机器人助手,”他说。
将于2019年2月1日在夏威夷檀香山举行的第33届AAAI人工智能会议上,自主推导子目标以加速稀疏奖励领域的学习(附件)。