研究人员Pushmeet Kohli,Sven Gowal,Krishnamurthy,Dvijotham和Jonathan Uesato一直在研究这个问题,他们确定了许多仍有待完成的工作,他们总结为“走向强大且经过验证的AI:规范测试,强大的培训”和正式验证。“
计算机程序的验证测试历史悠久,但这些方法“并不适合现代深度学习系统”。
为什么?在很大程度上,因为科学家们仍在了解神经网络遵循为其规定的“规范”意味着什么。并不总是清楚规范甚至是什么。
作者写道:“在AI系统中捕获'正确'行为的规范通常很难准确地说明。”
Google的DeepMind提出了一种方法来设置神经网络可以产生的输出类型,以防止它做错事。
DeepMind研究人员观察到,“规范”的概念来自软件世界。它是计算机系统的预期功能。
正如作者在12月的一篇文章中所写,在AI中,可能不会只有一个规范,可能至少有三个。有一个“理想”规范,系统的创造者想象它可以做什么。然后是“设计”规范,明确针对神经网络优化的“目标函数”。而且,最后,还有“显示”规范,即实际执行的方式。他们称这三个规格,彼此之间可能有很大差异,包括愿望,设计和行为。
设计人工神经网络可以看作如何缩小愿望,设计和行为之间的差距。正如他们在12月的文章中写道的那样,“当理想规范与显示的规范不匹配时,即当人工智能系统没有做我们希望它做的事情时,就会出现规范问题。”
他们提出了各种测试和训练神经网络的途径,这些网络对错误更加健壮,并且可能更忠实于规范。
一种方法是使用AI本身来弄清楚AI的困惑。这意味着使用像Google的AlphaGo这样的强化学习系统,找到另一种强化学习系统失败的最坏方法?
作者在12月发表的一篇论文中做到了这一点。“我们学习了一种对抗价值函数,它根据经验预测哪种情况最有可能导致代理人失败。”在这种情况下,代理是指强化学习代理。
“然后我们使用这种学习函数进行优化,将评估重点放在最有问题的输入上。”他们声称该方法导致强化学习系统“对随机测试的大幅改进”。
另一种方法是训练神经网络以避免整个输出范围,以防止它完全脱离轨道并做出非常糟糕的预测。作者声称,“简单边界技术”,称为“区间界限传播”,能够训练“可验证的鲁棒”神经网络。这项工作在去年的NeurIPS大会上为他们赢得了“最佳论文”奖。
他们现在正在超越仅仅测试和训练神经网络以避免灾难,他们也开始为保证稳健性找到理论基础。他们认为这是一个“优化问题,试图找到被核实财产的最大违规行为”。
尽管取得了这些成就,但最终还是“需要做很多工作”,作者写道“构建自动化工具以确保现实世界中的AI系统能够做出”正确的事情“。
其中一些工作是设计能够更强烈地测试和训练神经网络的算法。但其中一些可能涉及人的因素。它是关于为人类所需的AI设定目标 - 目标函数。
“需要建立能够使用部分人工规范并从评估反馈中学习更多规范的系统,”他们写道,“因为我们正在建立能够展现复杂行为并在非结构化环境中行动的越来越智能的代理。”