您的位置:首页>科技 >内容

Google的Snorkel DryBell是企业数据管理的未来吗

2019-03-17 13:55:58来源:zdnet
导读软件工具总是有一个丰富的市场,它可以清理企业数据并将其集成以使其更有用。随着数据是新的石油的口号,从Oracle到Talend,大大小小的供应

软件工具总是有一个丰富的市场,它可以清理企业数据并将其集成以使其更有用。随着“数据是新的石油”的口号,从Oracle到Talend,大大小小的供应商都比以往任何时候都要做出非常好的销售宣传。

但是,如果没有什么需要清理,本身呢?相反,如果数据中最有价值的部分可以在某种意义上转移到机器学习模型中而不改变数据本身呢?

谷歌人工智能团队周四与布朗大学和斯坦福大学合作推出的新技术暗示了这一概念。

该代码以有点笨拙的名字“Snorkel DryBell”为基础,建立在现有的Snorkel软件之上,这是一种在斯坦福开发的开源软件。Snorkel允许自动为数据分配标签,这是对数据内容的一种分类,从内容存储库到进入数据中心的实时信号。

该工作指出,有许多数据不能在防火墙之外使用,但仍然可以用来训练深度学习。据谷歌称,这被称为“不可服务”的数据,“如月度汇总统计数据”或“昂贵的内部模型”。他们认为,应该能够利用所有这些来使机器学习更好。

隐含地提出的问题是,是否需要清理任何数据。相反,它可以简单地成为构建机器学习的管道的一部分而无需修改。所需要的只是将基本的Snorkel功能工业化,以便它可以处理更多不同的数据源,并且适合企业设置。

斯坦福大学计算机科学系博士生Alex Ratner和Google AI的Cassandra Xia的博客文章解释了这项工作。还有一篇随附的论文“Snorkel DryBell:在工业规模部署弱监督的案例研究”,其中Stephen Bach是主要作者,发布在arXiv预打印服务器上。

Snorkel方法很容易理解。在机器学习的传统监督培训中,馈送到机器学习系统的数据必须由主题专家标记。人工制作的标签是机器学习如何对数据进行分类的。这对人类来说非常耗时。

相反,Snorkel让一组主题专家编写自动为数据分配标签的功能。然后,生成神经网络比较多个函数为相同数据生成的标签,一种投票计数导致关于哪些标签可能为真的概率。然后使用该数据及其概率标签来训练逻辑回归模型,而不是使用手工标记的数据。与传统的监督机器学习相比,这种方法被称为“弱监督”。

Google-Stanford-Brown团队对Snorkel进行了调整,以更大规模地处理数据。换句话说,Snorkel DryBell是Snorkel的工业化。

首先,他们改变了DryBell的生成神经网络中使用的优化函数与Snorkel中使用的优化函数。他们写道,结果是计算标签的速度是Snorkel传统提供的速度的两倍。

虽然Snorkel旨在在单个计算节点上运行,但该团队将DryBell与MapReduce分布式文件系统集成在一起。这使得DryBell能够以“松散耦合”的方式在众多计算机上运行。

通过这种工业化,团队能够向深度学习系统提供更多弱标签数据,他们写道,结果显示弱监督击败了使用手工制作标签的传统监督学习 - 在某种程度上。

例如,在一个测试任务“主题分类”中,计算机必须“检测企业内容中的感兴趣主题”,他们在“684,000个未标记数据点”上“弱监督”逻辑回归模型。

“我们发现,”他们写道,“它需要大约80,000个手工标记的例子来匹配弱监督分类器的预测准确性。”

所有这一切至关重要的是不可服务的数据,混乱,嘈杂的东西,但在组织内部具有很大的价值。当他们进行“消融”研究时,他们删除了不可服务的训练数据,结果并不理想。

结果是一种“转移学习”,一种常见的机器学习方法,其中机器在一组数据上进行训练,然后能够将其鉴别推广到类似数据。

他们写道:“这种方法可以被视为一种新型的转移学习,它不是在不同数据集之间转移模型,而是在不同的特征集之间传递领域知识。”

这是一种获取企业陷入新发现效用的数据的方法,并且是“Snorkel DryBell实施的弱监管方法的主要实用优势之一”。

想象一下,新的企业数据管理任务:根据领域专家的最佳猜测,用C ++编写一些标注函数,并使用输出来训练神经网络,然后继续。不再需要花费很长时间来清理或规范数据。

“我们发现标签功能抽象是用户友好的,因为组织中的开发人员可以编写新的标签功能来捕获领域知识,”他们写道。ž

此外,标记标签的生成模型成为企业数据质量的一种仲裁者,在此过程中,他们称之为“关键”。

他们观察到,“确定每个来源的质量或效用,并相应地调整它们的组合,本身就是一项艰巨的工程任务。”

“使用Snorkel DryBell,这些弱监督信号可以简单地全部作为标记函数进行整合,并且发现估计的精确度对于识别以前未知的低质量源(后来被确认为这样,并且固定或删除)。”

目前工作中唯一缺少的是它可以与深度学习神经网络模型一起工作的证据。弱监督简单的逻辑回归模型是一回事。对这种系统来说,训练非常深度的卷积或循环网络将是一个有趣的下一个挑战。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章