亚马逊为这个困难问题提供更好答案的方法选择首先收集最完整的数据集,然后使用算法从最初的高音量和非常嘈杂(即填充不必要的数据)数据集中自动构建策划的知识图表该研究团队定制创建,以处理削减糠and和达到大多数有意义的结果。
亚马逊设计的系统实际上相对简单 - 或者更确切地说,它结合了两种相对简单的方法,包括基本的网络搜索,基本上只是使用问题的全文来抓取网页以获得结果 - 就像你'打字'哪部诺兰电影获得奥斯卡奖但错过了金球奖?'进入谷歌,例如(研究人员在现实中使用了多个网络引擎)。然后系统抓取排名前10位的页面并将其分解为已识别的名称和语法单位。
在得到的数据集之上,Alexa AI的方法然后寻找句子结构中的线索来标记和加权顶级文本中的重要句子,如“Nolan directed Inception”,并对其余部分进行折扣。这构建了ad-hoc知识图,然后他们评估它以识别其中的“基石”。一个基石基本上是原始搜索字符串中的单词(即“哪部Nolan电影赢得了奥斯卡但是错过了金球奖?”),并把它们拿出去,而不是把它们之间的信息看作是实际的来源。这个问题的答案。
通过对剩余数据进行一些最终加权和排序,该算法正确地将“初始”作为答案返回,亚马逊的团队发现这种方法实际上击败了最先进的方法,而这些方法更加复杂,但仅关注于文本搜索,或者只是孤立地构建策划的知识图。尽管如此,他们认为他们可以调整自己的方法以获得更好的效果,这对Alexa用户来说是个好消息,希望他们的智能扬声器能够解决有关高级Trivial Pursuit问题的激烈争论。