来自获胜的实例 - 让我们强调他们是获胜者 - 神经网络方法包括如此恼人的蠢事作为陈述序列中的不一致。例如,竞争中的顶级团队Lost in Conversation在一个关于他们都喜欢什么的随意谈话中聘请了一个人与机器人。机器说出了“我喜欢画画”这句话。当人类回应“太棒了!你喜欢画什么?”机器不会对绘画有所反应,而是“我喜欢画出我喜欢的汽车的肖像”。(让我们称之为双重错误:不仅绘画不是绘画,人们通常不绘制或绘制无生命物体的“肖像”。)
另外:
与机器人聊天时可能发生的令人痛苦的对话的一个例子。
Facebook AI Research等。
其他烦恼包括在同一话语中无意识地重复短语,例如“你有没有宠物吗?你有宠物吗?”来自第二名的球队Hugging Face。热闹的例子包括自相矛盾。计算机上写着“刚读完一本书”,一个人问道:“哪本书?”计算机回答“我读的不多,我更喜欢阅读。”
研究人员写道,也许表明了令人厌恶的聊天机器人,通过在Facebook的Messenger应用程序上进行交谈而自愿测试这些东西的人,大多数人最终调出机器人或进行“毫无意义”甚至“冒犯”的对话。那些“在野外”的免费评估是如此混乱,他们不得不从机器人的评估中完全消除。
另一组人员获得了在亚马逊机械土耳其众包平台上测试机器的报酬。他们通常更加勤勉地坚持这项任务,毫不奇怪,因为他们得到了报酬。
另外:
作者看着土耳其志愿者给予机器的评级,他们指出,即使是像Lost in Translation and Hugging Face这样表现最好的神经网络也“遭受了重复,一致性或有时'无聊'的错误。”另一个缺陷是机器“问了太多问题。”
“当模型提出太多问题时,”作者写道,“它可以使谈话变得脱节,特别是如果问题与之前的谈话无关。”
他们指出,顶级竞争对手的神经网络“经常在几次对话中无法自我控制”。“即使他们偶尔发生这些问题,这些问题对于一个人类说话的伙伴来说也会特别刺耳。”人工智能还“提出已经回答的问题。一个模特问'你做什么工作?'即使人类早先说“我在电脑上工作”导致人们回答“我只是告诉你傻”。
此外:
论文“第二次会话智力挑战(ConvAI2)”由Facebook AI Research的Emily Dinan,Alexander Miller,Kurt Shuster,Jack Urbanek,Douwe Kiela,Arthur Szlam,Ryan Lowe,Joelle Pineau和Jason Weston撰写,同时来自莫斯科物理科学与技术学院的Varvara Logacheva,Valentin Malykh和Mikhail Burtsev;蒙特利尔大学的尤利安塞尔班;Shrimai Prabhumoye,Alan W Black和Carnegie Mellon的Alexander Rudnicky;和微软的杰森威廉姆斯。该论文发布在arXiv预打印服务器上。
聊天机器人的缺陷来自于尽管事实上研究人员在2017年相对于之前的竞争对手在团队竞争的培训和测试框架方面做了很多改进。
来自获奖聊天机器人团队的片段,迷失在翻译中。比其他人少得多的傻瓜,但仍然不是真正的崇高对话。
Facebook AI Research等。
这一次,作者提供了一套基准的会话数据,一年前由Dinan,Urbanek,Szlam,Kiela和Weston以及蒙特利尔Mila机器学习研究所的Saizheng Zhang发布。这个名为“Persona-Chat”的数据集包含16,064个人类发言人的话语实例,要求他们在Mechanical Turk上互相聊天。另外一组1000多个人类话语作为神经网络的测试集保密。该数据集已提供给所有竞争研究人员,但并非所有人都使用过它。
帮助众包Persona-Chat的每个人都被赋予了“他们应该是谁”的形象 - 喜欢滑雪的人,或者最近有猫的人 - 以便人类对话者发挥作用。两个发言者中的每一个都试图在他们进行对话时保持他们的话语与该角色一致。同样,可以在训练期间将配置文件提供给神经网络,因此坚持个性是竞争的嵌入式挑战之一。
正如作者描述的挑战,“任务旨在模拟两个对话者第一次见面时的正常对话,并相互了解。
“这项任务在技术上具有挑战性,因为它涉及提问和回答问题,以及保持一致的角色。”
不同的团队使用了各种方法,但特别受欢迎的是“变形金刚”,这是对典型的“长期短期记忆”的修改,或由Google的Ashish Vaswani及其同事在2017年开发的LSTM神经网络。
那么为什么所有糟糕的结果呢?
回顾这些缺点,很明显一些问题是机器在测试时试图提高分数的机械方式。对于表示轮廓或角色的神经网络,机器似乎试图通过重复句子来产生最佳分数,而不是创建真正引人入胜的句子。“我们经常观察模型几乎逐字逐句地重复人物句,”他们写道,“这可能会导致高人格检测分数但是低接合度分数。
“训练模型使用角色创建引人入胜的反应而不是简单地复制它仍然是一个悬而未决的问题。”
必读
谷歌人工智能领导者(CNET)称,人工智能是非常非常愚蠢的
如何立即获取所有Google智能助理的新声音(CNET)
统一的Google AI部门是AI未来的明确信号(TechRepublic)
前5:关于AI的事情(TechRepublic)
他们写道,这可以追溯到测试本身的设计和意图。测试可能太浅,无法培养强大的会话技巧。“很明显,智能代理的许多方面都没有通过这项任务进行评估,例如使用长期记忆或深入的知识和深层推理,”作者观察到。
“例如,'权力的游戏'被提及,但模仿这种对话的模型并不需要更多地了解该节目,因为在ConvAI2发言者倾向于浅谈对方的兴趣而不会长时间徘徊在一个话题上“。
作者提出,自然语言处理中的许多新兴技术可能有助于解决一些缺点。
例如,这些团队无法访问谷歌去年年底推出的名为“BERT”的语言编码器 - 解码器神经网络。BERT可以改善句子表示。
同样,研究中的新方向可能是一种解决方案。例如,Facebook AI作者去年年底推出了一种名为“对话自然语言推理”的东西,它通过训练神经网络来推断一对话语是否“相互”或“相互矛盾”或是中立的。他们建议,通过培训一种非常不同的任务,这种方法可以“修复模型”。