作为提醒,Salesforce研究侧重于问答,作为通过爱因斯坦促进数据访问的一种方式。我们之前已经看到其他Salesforce研究人员如何调查知识图的使用情况。
Rajani和McCann的工作采用了不同的方法,但也建立在之前的一些贡献上。对于一些世界领先的研究人员来说,常识推理是一个开放的问题。例如,构建CAGE的关键因素之一是OpenAI GPT。配音这个语言模型最近打开由伊隆·马斯克的OpenAI来源为“太危险了”在野外被释放可能是过于谨慎。
然而,它是语言模型的最新技术。正如Rajani和McCann指出的那样,这些自然语言处理网络仅限于文本,作为生活在现实世界中的不良替代品。因此,研究人员通过让他们阅读一系列令人难以置信的文本来训练模型,包括所有维基百科,数千本书,以及其他方法,也可以通过查询Google来获得结果。
这些模型使用名为Commonsense Question Answering(CQA)的多项选择测试进行测试,该测试包含需要常识推理才能回答的问题。在典型的深度学习方式中,模型在CQA的一些示例上进行训练,然后在不同的问题集上进行测试。与人类相比,已知这些读得很好的神经网络在这项任务上的表现非常糟糕。
常识问答(CQA)数据集中的示例问题和答案选择以及常识解释。图像:Salesforce研究
Rajani和McCann创建了一个以CQA为模型的数据集,但除了问题的答案之外,它们还包括解释。这就是他们创建CoSE的方式,CoSE是Commonsense Explanations的数据集。正如Rajani所说,CoSE v1.0有8500个例子,v1.11有10,962个例子,包括训练和验证集。对于深度学习标准,这不是很多数据。
Rajani和McCann承认这一点,并且增加数据集是他们未来工作的目标之一。McCann表示,他们希望将此数据集收集流程扩展到该领域的其他基准,包括自由格式文本,结构化信息和来自图像或视频的视觉信号,以便他们可以训练解释许多不同领域的模型。
使用Mechanical Turk上的众包产生了解释。要求Turkers提供问题的答案,解释答案,并突出引导他们解释问题的部分。让我们注意到,最近使用Mechanical Turk进行知识图表质量处理的研究表明,众包是这类任务的可行解决方案。
拉贾尼提到有一些例子需要重新注释,即使他们对解释的质量有最初的限制,因为他们已经陷入困境。设计任务并收集数据大约需要三周时间。CoSE可以被其他研究人员使用并进一步增强,并且可以在GitHub上获得。