您的位置:首页>科技 >内容

训练计算机像科学家

2019-05-15 16:20:25来源:
导读想象一下,你刚刚制作了一个计算机程序,可以通过机器学习将照片中的狗与狼区分开来。该程序看起来工作正常,正确标记狗为狗,狼为狼。但是

想象一下,你刚刚制作了一个计算机程序,可以通过机器学习将照片中的狗与狼区分开来。该程序看起来工作正常,正确标记狗为狗,狼为狼。但是当你一遍又一遍地测试代码时,你会发现所有的狼照片中都有雪。你再一次测试代码,一张狗在雪地里玩耍的照片,现在你的代码失败了,把那条狗误认为狼。恭喜你,你刚刚经历了盲目依赖机代码的常见陷阱。可以训练机器学习算法以在照片中区分狼和狗,但是有时这些算法通过假设在背景中用雪描绘的任何动物是狼(右下)来学习错误。两位学校的科学家认为,机器学习的科学应用也需要进行监控,以确保它们正常工作。

机器学习是人工智能的一个分支,它使计算机能够设计自己的解决问题的解决方案,这使得谷歌这样的公司能够开发出一种软件,可以学习不仅可以识别照片中的狗,还可以预测交通模式和消费者等事物。购买习惯。

机器学习也一直引起科学家的兴趣,他们希望加快使用计算能力的研究步伐。2017年底,Kangway Chuang博士在加州大学旧金山分校神经退行性疾病研究所的教授Michael Keizer博士的实验室开始他的博士后工作,并在药物化学系联合任命,目的是改善通过将他在化学方面的专业知识与Keiser在机器学习方面的经验相结合,实现药物研

因此,当Chuang抓住普林斯顿大学实验室早期在线发布论文的风时,该实验室据称用机器学习来预测成千上万的化学反应的结果,他正在挖掘。

普林斯顿的作者已经开发出一种算法,可以预测几千种化学物质中任何一种的组合结果,并且他们断言该算法基于这些化学物质的特定特征起作用,例如它们的原子如何振动或它们如何吸收辐射的模式。然而,几天之内,Chuang发现了论文的关键图表和表格中的缺陷。

Chuang和Keizer联系了Princeton小组并帮助他们修复了代码中的小错误。最初的论文得到了更新和发表,但由于他们感兴趣,Chuang和Keizer继续思考调查结果的含义。

“我们都试图回答的一个重要问题是,'你怎么能让计算机来思考一个分子?'”Chuang说。

Chu决定用机器学习算法进行所谓的“控制”实验。在许多科学中,即使实验有效,科学家们也会进行第二次实验,其中一个关键部分被排除在外。如果实验似乎仍然没有重要组成部分,那么它就会回到绘图板上让科学家们找出原因。

使用这种推理方法,Chuang用随机数代替了Princeton小组的化学特征数据库,并再次对机器学习算法进行了预测反应结果的任务。如果算法实际上基于这些化学特征进行预测,则结果应该改变。但事实并非如此。

令人惊讶的是,该算法仍然做出了几乎相同的预测。只是狗/狼算法如何根据图像中雪的存在来教导自己获得大多数正确的答案,化学算法使用一种看不见的快捷方式来产生看似正确的答案,而不考虑化学特征。

Keiser和Chuang都谨慎地指出,尽管这项对照实验揭示了普林斯顿机器学习论文中的严重缺陷,但他们自己的发现仍有局限性。“这并不意味着[化学反应的结果]不涉及化学特征,”Keiser解释说。“这只意味着这次机器学习研究未能证明这一点。”

在2018年末,Chuang和Keiser在他们自己的两篇论文中发表了他们的工作,展示了机器学习如何导致科学家误入歧途,以及科学家将来如何避免培养计算机成为科学家的一些陷阱。

Keizer和Chuang使用基于实验室的科学控制作为灵感,在ACS化学生物学的封面文章中描述了三个简单的对照实验,科学家们可以使用这些实验来确保他们的机器学习算法不会隐喻地将狗误认为狼。

最终,Keiser和Chuang希望数据科学家成为他们“自己最严厉的批评家”,就像他们已经学会了在自己的实验室里一样。他们目前正在开发计算工具,允许任何人轻松应用控件以确保机器学习算法正常工作。

“这整个过程在加强我们自己的科学方法方面非常有用,”庄说。“我们希望通过我们未来的研究以身作则。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章