现在,当呈现一个前所未有的场景时,代理人利用其经验选择一些瞥见 - 就像站在大教堂中间的游客在不同方向拍摄一些快照 - 这些共同加起来超过完整场景的20%。使这个系统如此有效的原因在于它不仅仅是随机拍摄照片,而且在每次瞥见之后,选择它预测的下一个镜头将添加关于整个场景的最新信息。这就像你在一家以前从未去过的杂货店,你看到苹果,你会发现附近有橘子,但要找到牛奶,你可能会看到另一种方式。基于瞥见,代理人推断出如果看到所有其他方向,它会看到什么,
“就像你带来以前经验丰富的环境中存在的规律的先前信息一样 - 就像你去过的所有杂货店一样 - 这个代理人以非穷举的方式进行搜索,”格劳曼说。“它学会了在哪里收集视觉信息以便在感知任务中取得成功的智能猜测。”
科学家为自己设定的主要挑战之一是设计一种能够在严格的时间限制下工作的代理人。这在搜索和救援应用程序中至关重要。例如,在燃烧的建筑物中,将要求机器人快速定位人员,火焰和有害物质,并将该信息传递给消防员。
目前,新代理人的运作方式就像站在一个地方的人一样,能够将摄像机指向任何方向,但无法移动到新的位置。或者,等效地,代理可以凝视它所持有的对象并决定如何转动对象以检查它的另一侧。接下来,研究人员正在进一步开发该系统,以便在完全移动的机器人中工作。
使用UT奥斯汀德克萨斯高级计算中心和计算机科学系的超级计算机,花了大约一天时间使用称为强化学习的人工智能方法训练他们的代理人。由Ramakrishnan领导的团队开发了一种加速培训的方法:建立第二个代理人,称为助手,以协助主要代理人。
“使用纯粹在训练期间出现的额外信息有助于[主要]代理人更快地学习,”Ramakrishnan说。
这项研究部分得到了美国国防部高级研究计划局,美国空军科学研究办公室,IBM公司和索尼公司的支持。