您的位置:首页>科技 >内容

为什么语言技术无法处理权力的游戏

2019-06-27 09:25:12来源:
导读来自阿姆斯特丹自由大学和荷兰皇家学院人文科学研究所的研究人员评估了四种最先进的工具,用于识别文本中的名字,评估和改善他们在流行小说

来自阿姆斯特丹自由大学和荷兰皇家学院人文科学研究所的研究人员评估了四种最先进的工具,用于识别文本中的名字,评估和改善他们在流行小说中的表现。他们找到了解决方案,以提高工具识别一本小说中名称的能力,准确率为7%至90%。

自然语言处理(NLP)工具通常用于许多日常应用程序,如Siri和Google,但这些技术的有效性尚未完全理解。来自阿姆斯特丹自由大学和荷兰皇家艺术学院人文科学研究所的研究人员对流行的40部小说中的四种不同的名称识别工具进行了全面评估,其中包括“权力的游戏”。他们的分析发表在PeerJ Computer Science上,突出显示这些工具特别具有挑战性的名称和文本类型,以及减轻这种情况的解决方案。此外,他们从小说中提取社交网络,以探索故事结构的差异。这些见解可以帮助使这些技术更加强大,以防止流派差异,并可以帮助例如使这项技术对想要分析大型数据集(如巴拿马论文)的记者更有用。

许多NLP工具都基于机器学习;也就是说,训练计算机程序以基于先前馈送的示例识别文本中的模式。为了识别文本中的名字,例如,它提供了许多报纸文章,其中人类已经仔细地标记了名称。然后,该程序的任务是根据上下文(例如,先于Mr)或单词的形状(例如,这些名称通常以英文大写字母开头)来“学习”名称的外观。现在,将报纸上的这种系统应用到小说中的问题在于,小说的作者在叙述方面比需要坚持事实的记者有更多的自由。小说作者可以组成自己的名字,例如Tywin或R'hllor,或直接使用字典中的描述性字符名称,例如Gray Worm。

由Niels Dekker(Trifork BV),Tobias Kuhn(阿姆斯特丹自由大学)和Marieke van Erp(KNAW Humanities Cluster)进行的实验也突出了语言的灵活性以及名称在故事中的背景。例如,可以将Daenerys Targaryen称为Daenerys和她,但她也被称为Dany,Daenerys Stormborn,龙之母,Khaleesi,Unburnt和Mhysa。为权力的游戏创建的社交网络,例如,她的朋友使用Dany,而她的敌人(在她缺席时)只使用她的全名Daenerys。

本出版物中描述的研究表明,应该更多地关注NLP工具的性能,并且在计算机完全理解“文本”之前仍有工作要做。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章