您的位置:首页>要闻 >内容

扰流板警告 在您阅读之前这个神经网络会发现危险的评论

2019-07-10 11:13:15来源:
导读 这些天很难避免互联网上的破坏者 - 即使你小心翼翼,随机推文或推荐的新闻可能会浪费你的计划,以便在一天晚些时候观看那个季节的结局,

这些天很难避免互联网上的破坏者 - 即使你小心翼翼,随机推文或推荐的新闻可能会浪费你的计划,以便在一天晚些时候观看那个季节的结局,或者在人群消退后观看电影。但是很快AI工作人员就可以为你做扰流板,并在你有机会看之前标出剧透评论和内容。

SpoilerNet是加州大学圣地亚哥分校的一个团队的成员,他们可能是那些试图等待一周看无限战争并因为他们的麻烦而被抢购的人。再也不!

他们汇集了一个由亚马逊拥有的阅读社区Goodreads提供的超过一百万条评论的数据库,在这里,任何评论中都会注意到破坏者,这主要是逐行的。作为网站的用户,我很感谢这种能力,研究人员也是如此 - 因为在其他任何地方都没有任何书面评论,其中任何构成“剧透”的内容都由一个尽职尽责的社区精心标记。

(好吧,有点认真。正如研究人员所说:“我们观察到实际上只有少数用户使用此功能。”)

无论如何,这些标记数据现在基本上是通常被称为AI系统的食物:各种类型的神经网络,“学习”定义特定图像,对象或在这种情况下扰流器的质量。该团队将130万条Goodreads评论纳入系统,让它观察并记录普通句子与其中包含剧透的句子之间的差异。

也许评论的作者倾向于以某种方式开始用情节细节来表达句子 - “后来它被揭示......” - 或者可能是语言中的句子往往缺乏像“伟大”或“复杂”这样的评价性词语。谁知道呢?只有网络。

一旦训练完成,代理人就会被一套单独的句子(来自Goodreads和令人难以置信的时代电视特洛伊)放松,它可以被标记为“剧透”或“非剧透”,最多可达92准确率。早期尝试计算预测句子中是否有破坏者并没有那么好;蒋等人的一篇论文。去年开辟了新的领域,但受其数据集和方法的限制,这使得它只能考虑前面的句子。

“我们还在同一评论文档中对句子之间的依赖性和连贯性进行建模,以便可以合并高级语义,”SpoilerNet论文的主要作者Mengting Wan在一封电子邮件中告诉TechCrunch。这样可以更全面地理解段落或评论,但当然这也是一个更复杂的问题。

但更复杂的模型是来自更丰富数据的自然结果,他写道:

这样的模型设计确实得益于我们为这项工作收集的新的大规模审查数据集,其中包括完整的审查文件,句子级扰流标签和其他元数据。据我们所知,在此工作之前的公共数据集(2013年发布)仅涉及几千个单句评论,而不是完整的评论文档。对于研究社区而言,这样的数据集还有助于详细分析现实世界的评论剧作者以及在该领域开发现代“数据饥渴”的深度学习模型。

这种方法仍然是新的,更复杂的方法有其缺点。例如,如果其他扰流句是相邻的话,该模型偶尔会将一个句子误认为具有破坏者;并且它对单个句子的理解不够好,无法理解某些词语是否真的表明剧透。你和我都知道“这杀死达斯维达”是一个扰流板,而“这杀死了悬念”不是,但计算机模型可能难以分辨。

Wan告诉我系统应该能够在用户的计算机上实时运行,但当然训练它将是一个更大的工作。这开启了浏览器插件或应用程序的可能性,可以在您面前查看评论并隐藏其认为有风险的任何内容。尽管亚马逊与该研究间接相关(共同作者Rishabh Misra在那里工作),Wan表示还没有计划商业化或以其他方式应用该技术。

毫无疑问,它将成为亚马逊及其子公司和子业务能够在评论和其他内容中自动标记剧透的有用工具。但是在新模型实施之前(并且直到它好一点)我们将不得不坚持使用老式的方法来避免与世界接触,直到我们看到有问题的电影或节目。

加州大学圣地亚哥分校的团队将于本月晚些时候在意大利的计算语言学协会会议上展示他们的工作;你可以在这里阅读全文- 但要注意剧透。认真。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章