在艾伦研究所人工智能,或者AI2,今天宣布其雅集软件得分高于90%的多项选择题测试面向的八年级学生,和好于80%的高年级学生进行测试。
当然有一些警告:该考试基于纽约摄政学院的能力测试,排除了依赖于解释图片或图表的问题。这些问题需要尚未编入Aristo的视觉解释技能。需要直接回答的问题(即论文问题)也被排除在外。而对于它的价值,Aristo在训练它的科学领域之外是无用的。
尽管如此,这次演习还是说明了自2016年以来人工智能已经走了多远,当时所有参加8万美元艾伦AI科学挑战赛的计划都不及格。
“这是一个突破,因为它在标准化测试问题上取得了显着成果,需要一定程度的自然语言理解,推理,甚至是常识,”AI2首席执行官Oren Etzioni在一封电子邮件中告诉GeekWire。“这与标准研究基准和Go等棋盘游戏非常不同。就在一年前,没有人会预料到8年级和12年级科学问题的这种快速进展!“
这项工作建立在一系列语言解释,问答人工智能代理的基础之上,包括AI2的ELMo程序和在西雅图的Google研究机构开发的BERT程序。Aristo利用了八种类型的问题解决代理 - 从仅在数据库中查找答案的代理到检查相关概念列表的代理(称为元组),到执行定性推理的代理。
每个问题解决者都会为首选的多项选择答案产生分数,而Aristo会对不同的分数进行加权以选择最可能的选择。该计划通过多轮培训和校准优化其绩效。
例如,有一个问题是:“当块体熔化时,铁块中的颗粒是如何受到影响的?(A)颗粒增加质量。(B)颗粒含有较少的能量。(C)粒子移动得更快。(D)颗粒体积增加。“
为了回答这个问题,Aristo得知粒子的热量随着粒子的热量增加而移动的知识,将术语“融化”与“热量”联系起来,将术语“更快”与“更快”联系起来,并将C评分为正确选择。
结合不同的解决问题的方法为Aristo将测试分数从2016年的大约60%提高到八年级测试的91.6%扫清了道路。在12年级考试中,该计划得分率为83.5%。
在一份关于该项目的研究论文中,Etzioni和其他AI2研究人员 - 包括项目Aristo的高级经理Peter Clark表示,该计划的通过等级“只是迈向一台对科学有深刻理解并实现的机器的漫长道路上的一步。保罗艾伦最初的数字亚里士多德梦想。“
研究人员的目标是将Aristo的技能扩展到包含基于图表的问题和论文问题。最终,该技术应该在提供自然语言答案时提升现有技术水平,这些问题会对成年人和八年级学生的大脑产生负担。
这可能会导致数字助理比亚马逊的Alexa,微软的Cortana和Apple的Siri当前的迭代更聪明 - 以及全新的AI应用程序和初创公司。
在另外的电子邮件中,Etzioni和Clark都向去年10月去世,享年65岁的 Paul Allen致敬。他们都说他想要更多。
“保罗会很高兴,但不会让我们满足于现状,”Etzioni告诉GeekWire。“他会问:你理解语言的下一步是什么?”
克拉克同意:“我会想象他说”恭喜!下一步是什么?”