当Facebook或Google识别出您的照片并建议您标记自己时,它会使用机器学习。当一辆自动驾驶汽车在一个繁忙的十字路口航行时,那就是机器学习的动作。神经科学家使用机器学习来“阅读”某人的想法。关于机器学习的事情是它基于数学。因此,数学家可以在理论层面上对其进行研究和理解。他们可以编写关于机器学习如何工作的证明,并在每种情况下应用它们。
在这种情况下,一组数学家设计了一个称为“估计最大值”或“EMX”的机器学习问题。
要了解EMX的工作原理,请想一想:您希望在网站上投放广告,并最大限度地提高这些广告定位的观众数量。你有广告向体育迷,猫爱好者,汽车狂热分子和运动爱好者等投球。但你事先并不知道谁将访问该网站。如何选择能够最大化目标受众数量的广告?EMX必须通过访问网站的少量数据来找出答案。
然后研究人员提出了一个问题:EMX什么时候可以解决问题?
在其他机器学习问题中,数学家通常可以说基于他们拥有的数据集是否可以在给定的情况下解决学习问题。谷歌用来识别你的面孔的基础方法是否可以应用于预测股市趋势?我不知道,但有人可能。
麻烦的是,数学有点破碎。它自1931年以来一直被打破,当时逻辑学家库尔特·哥德尔发表了他着名的不完备性定理。他们表明,在任何数学系统中,都存在一些无法回答的问题。他们并不是很难 - 他们是不可知的。数学家们了解到,他们理解宇宙的能力从根本上受到限制。哥德尔和另一位名叫保罗科恩的数学家发现了一个例子:连续统假说。
连续统假设是这样的:数学家已经知道有不同大小的无穷大。例如,有无限多个整数(数字如1,2,3,4,5等); 并且有无限多的实数(包括1,2,3等数字,但它们也包括1.8和5,222.7以及pi等数字)。但即使存在无限多个整数和无数多个实数,显然有更多的实数而不是整数。提出这个问题,是否有任何无穷大于整数集但是小于实数集?连续统假说,不,没有。
哥德尔和科恩表明,不可能证明连续统假设是正确的,但也不可能证明这是错误的。“连续统假说是真的吗?” 是一个没有答案的问题。
事实证明,只有连续统假设为真,EMX才能解决问题。但如果不是这样,那么EMX就不能......那就意味着“EMX可以学会解决这个问题吗?” 答案是连续统假设本身不可知的答案。
好消息是连续统假设的解决方案对大多数数学来说并不是很重要。同样,这种永久的谜团可能不会成为机器学习的主要障碍。
“因为EMX是机器学习的一个新模型,我们还不知道它对于开发真实算法的有用性,”伊利诺伊大学芝加哥分校数学教授Lev Reyzin没有写论文,他写道在伴随的Nature News&Views文章中。“所以这些结果可能不会具有实际意义,”Reyzin写道。
Reyzin写道,遇到一个无法解决的问题,在机器学习研究人员的帽子中是一种掠夺。
Reyzin写道,这证明机器学习已经“成熟为一门数学学科”。
Reyzin写道,机器学习“现在加入了许多数学子领域,这些子领域处理无法提供的负担和随之而来的不安。” 也许这样的结果将为机器学习领域带来健康的谦逊,即使机器学习算法继续彻底改变我们周围的世界。“