随着科学的发展,现在仅靠人类团队已经不足以处理物理学和天文学实验所产生的海量信息。这些实验有时每天会产生多达数TB的数据,而且这个数字还在增加。 Square Kilometer Array是一组预计将在本世纪20年代中期开启的射电望远镜阵列,它每年将产生的数据量相当于现在整个互联网的总数据流量。
数据狂潮的不断高涨,让许多科学家向AI寻求帮助。人工神经网络(即可以模拟大脑功能的神经元的计算机网络)等AI系统可以通过最少的人工输入,初步浏览大量数据,并从中发现人类永远无法发现的模式。
当然,最早使用计算机来辅助科学研究的活动大约可追溯到75年前,至于对数据进行研究,从中寻找有意义的模式,则在数千年前就已经开始了。一些科学家认为,机器学习和人工智能的最新技术进展可能代表了一种全新的科学研究方法。
其中,一种名为“生成建模”的方法,有助于人们在基于数据观察结果的不同解释中找出最合理的理论。更重要的是,这个过程是在没有任何预编程知识,并不知晓所研究的系统的实际流程的情况下实现的。生成模型的支持者认为,这可能是我们认识宇宙的“第三条道路”。
假设我们不具备关于天体物理学的任何知识,我们在多大程度上可以只凭借数据本身,来重新发现这些知识?
传统上,我们是通过观察来了解自然的。比如Johannes Kepler在第谷布拉赫Tycho Brahe编制的行星位置表上进行了仔细研究,试图辨别出潜在的模式,最终推断出行星在椭圆轨道上运动的结论。科学也可以通过模拟方式向前发展。
天文学家可能会模拟银河系及其邻近的仙女座星系的运动,并预测它们将在数十亿年内相互碰撞。观察和模拟都有助于科学家提出假设,然后通过进一步的观察进行测试。而生成建模与这两种方法都不一样。
“(生成建模)基本上是‘观察’和‘模拟’之间的第三种方法。”天文物理学家、生成模型支持者之一Kevin Schawinski说道,他最近在瑞士苏黎世联邦理工学院工作。 “这种方法是解决问题的另一种途径。”
一些科学家将生成建模等新技术视为传统科学的动力工具。但大多数人都认为人工智能正在产生巨大影响,而且它在科学中的作用只会增长。费米国家加速器实验室的天体物理学家Brian Nord使用人工神经网络来研究宇宙,他们担心,未来人类科学家所做的一切研究活动,都可以实现自动化。 “这是一个令人不寒而栗的想法。”他说。
GAN模型助天文学家攻克行星分类任务
自研究生毕业以来,Schawinski就一直从事数据驱动的科学研究。在攻读博士学位期间,他曾面临一个艰巨任务:根据外表面对数千个星系进行分类。因为这个任务并没有现成的软件可用,所以他决定利用众包的方式——“银河动物园全民科学项目”由此诞生。
从2007年开始,普通计算机用户可以记录下自己关于某个星系属于哪个类别的最佳猜测,来帮助天文学家完成分类任务,多数人的分类结果一般都是正确的。这个项目取得了成功,但是,Schawinski也指出,与AI相比,这个项目已经过时:“今天,掌握机器学习和云计算技术的才华横溢的科学家,可以在一个下午完成整个项目的工作。”
Schawinski在2016年将注意力转向生成建模的强大的新工具。从本质上讲,生成建模会询问在满足条件X的情况下,观察到结果Y的可能性。这种方法已被证明非常有效且用途广泛。
例如,为生成模型提供一组人脸图像,每张脸都标记有人的年龄。当计算机程序梳理这些“训练数据”时,会开始在较老的面部图像之间建立联系,并增加皱纹的可能性。最终,它可以对任何输入的面部图像进行“老化”,也就是说,它可以预测任何年龄的特定面部图像可能经历的真实变化。
在此类系统中,最著名的是“生成对抗网络”(GAN)。在充分学习训练数据之后,GAN可以修复已经损坏或丢失像素的图像,或使模糊的照片变得清晰。GAN系统能够学会通过竞争来推断图像中缺失的信息(“对抗性”由此得名)。
GAN分为两部分,一部分名为生成器,能够生成虚假数据,第二部分名为判别器,目标是区分虚假数据和真实数据。随着程序的运行,两部分的表现都会越来越好。可能你已经看过一些由GAN生成的超逼真的“面孔”,这些足以乱真人脸图像最近已经成为热门话题。
更广泛地讲,生成建模系统利用数据集(通常是图像数据集),并将每个数据分解为一组基本的抽象构建模块,科学家将其称为数据的“潜在空间”。算法能够利用元素潜在的空间,看看它会对原始数据造成什么影响,这有助于发现系统运行的实际过程。
潜在空间的概念是抽象的,但可以做一个粗略的类比,想想当你试图确定一张人脸的性别时,你的大脑在做些什么。也许你会注意发型、鼻子的形状轮廓等要素,以及那些不好用语言轻易表达的特征。
计算机程序同样在寻找数据中的显著特征:虽然它不知道留着小胡子的脸是什么性别,但经过数据集上的训练,其中一些图像会被标记为“男人”或“女人”,如果其中有些图像有“小胡子”标签,系统就会很快推断出一个“小胡子”与“性别”之间的联系。
一家名为Modulos的AI公司的天体物理学家Kevin Schawinski认为,一种名为“生成建模”的技术为我们提供了第三种了解宇宙的方法
在去年12月发表于《天文学和天体物理学》的论文中,Schawinski和同事Dennis Turp、Ce Zhang使用生成模型来研究星系在演化过程中所经历的物理变化。(他们使用的软件对待潜在空间与生成对抗网络有所不同,因此技术上并不算是GAN,但与之类似。)他们使用的模型创建了人工数据集,作为测试物理过程假设的一种方式。
对于Schawinski来说,关键问题是,有多少关于恒星和星系过程的信息可以仅从数据中挑出来。 “让我们抹去我们所知道的关于天体物理学的一切,”他说。 “我们可以在多大程度上重新发现这些知识,只使用数据本身?”
首先,银河系的图像被缩小到潜伏空间中,然后,Schawinski调整该空间内的一个元素,调整方式与星系环境中的特定变化相对应。然后重新生成银河系,看看出现了什么差异。
“现在就好比我有一台机器,”他解释道。“我可以拍摄一大堆最初处于低密度环境中的星系,并通过这个过程,让他们看起来像是处在高密度环境中。”当低密度环境内的星系被放置到高密度的环境中时,它们的颜色会变得更红,星系中的恒星会变得更加集中。 Schawinski说,这符合现有的星系观测资料。
生成建模方法与传统模拟方法有联系,但二者之间有很大不同。 Schawinski说,模拟“基本上是由假设驱动的”。 “我想我知道导致在系统中观察到的所有现象背后的潜在物理定律是什么。我把所有的假设摆出来,然后运行模拟系统。然后问:运行结果看起来像现实吗?“
而在生成建模模式下,”在某种意义上,流程和思路与模拟方法是完全相反的。即:我们什么都不知道,我们不想假设任何事情。我们希望数据本身告诉我们,接下来可能会发生什么事情。“
不过,在这类研究中,生成建模系统的成功并不意味着天文学家和研究生的工作就是多余的但确实代表了天体物理学对象和过程研究方式的某种转变。“天文学并不是完全自动化的科学 - 但它表明我们能够至少部分构建推进科学过程自动化的工具。”Schawinski说。
不过,生成模型显然很强大,但它是否真正代表了一种新的科学方法还有待商榷。
对于纽约大学和Flatiron研究所的宇宙学家David Hogg来说,这项技术令人印象深刻,但最终只是从数据中提取模式的一种非常复杂的方法——这也是天文学家几个世纪以来一直在做的事情。换句话说,这是一种先进的观察和分析形式。
Hogg的工作严重依赖人工智能,他一直在使用神经网络根据恒星的光谱对其进行分类,并利用数据驱动模型推断出恒星的其他物理属性。但是他认为他的工作是经过实践检验的科学。
Hogg表示:
我不认为这是第三种方式,我只是认为,我们作为一个社区,在如何使用数据方面正变得更加成熟。特别是,我们在比较数据方面做得越来越好。但在我看来,我的工作仍完全处于观察模式。
人工智能系统就是“勤劳的助理”
无论它们在概念上是否新颖,人工智能和神经网络很明显地已经在当代天文学和物理学研究中发挥了关键作用。
在海德堡理论研究所(Heidelberg Institute for Theoretical Studies),物理学家Kai Polsterer领导的天体信息学小组(这是一个研究天体物理学的以数据为中心的新方法的研究小组),最近一直在使用机器学习算法从星系数据集中提取红移信息,这在以前是一项艰巨的任务。
Polsterer将这些基于人工智能的新系统视为“勤奋的助手”,它们可以连续数小时梳理数据,而不会对工作条件感到厌倦或抱怨。 他说,这些系统可以完成所有枯燥乏味的工作,让自己有时间去做那些酷而有趣的科学。
但这些基于AI的系统并非完美。Polsterer警告说:
尤其是这些算法只能做它们被训练过的事情。系统对于输入是“不可知的”。给它一个星系,这个软件就能估计出它的红移和年龄——但是给这个系统输入一张自拍照,或者一张腐烂的鱼的照片,它也会输出一个(非常错误的)年龄。最终,人类科学家的监督仍然是至关重要的。这个问题又回到了你身上。你是负责解释的人。
而费米实验室(Fermilab)的Nord则警告说:
神经网络不仅要传递结果,还要传递误差条,这一点至关重要,就像每个大学生所接受的训练一样。在科学领域,如果你做了测量,却不报告相关误差的估计,没有人会认真对待这样的结果。
与许多人工智能研究人员一样,Nord也担心神经网络产生的结果的不可穿透性(impenetrability);通常,一个系统会给出一个答案,但不提供该结果的过程。
然而,并非所有人都认为缺乏透明度(transparency)必然是个问题。
法国CEA Saclay理论物理研究所的研究员Lenka Zdeborova指出,人类的直觉往往同样是不可理解的。你看了一张照片,立刻认出了一只猫——“但你不知道你是怎么知道的,”她说。“从某种意义上说,你自己的大脑就是一个黑匣子。”
不仅天体物理学家和宇宙学家正在向人工智能推动的数据驱动科学迁移。 像Perimeter理论物理研究所和安大略滑铁卢大学的Roger Melko这样的量子物理学家已经使用神经网络来解决该领域中一些最棘手和最重要的问题,比如如何表示描述多粒子系统的数学“波函数”。
AI是必不可少的,因为Melko称之为“维数的指数性诅咒。”也就是说,波函数形式的可能性随着它描述的系统中的粒子数量呈指数增长。难度类似于在国际象棋或围棋这样的游戏中找出最好的走法:你试着往前看下一个走法,想象你的对手会玩什么,然后选择最好的对策,但每走一步,可能性就会激增。
当然,人工智能系统已经掌握了这两种游戏——几十年前的国际象棋,以及2016年的围棋,当时一个名为AlphaGo的人工智能系统击败了一名顶级人类棋手。它们同样适用于量子物理中的问题,Melko说。
机器的思维
无论Schawinski是否正确地宣称自己已经找到了做科学的“第三条道路”,或者像Hogg所说的那样,它只是传统的观察和数据分析“类固醇”,很明显AI正在改变科学发现的味道,而且肯定在加速它的发展。
人工智能革命将在科学上走多远?
当然,偶尔也会有人对“机器人科学家”的成就夸夸其谈。十年前,一位名叫亚当(Adam)的人工智能机器人化学家研究了面包酵母的基因组,并找出了制造特定氨基酸的基因。
最近,格拉斯哥大学(University of Glasgow)的化学家Lee Cronin一直在使用机器人随机混合化学品,看看形成了什么样的新化合物。通过质谱仪,核磁共振仪和红外光谱仪实时监测反应,系统最终学会预测哪种组合最具反应性。Lee Cronin说,即使不能进一步发现,机器人系统也可以让化学家将研究速度提高90%左右。
去年,苏黎世联邦理工学院的另一组科学家利用神经网络从一组数据中推导出物理定律。他们的系统类似于机器人开普勒(kepler),通过记录从地球上看到的太阳和火星在天空中的位置,重新发现了太阳系的日心模型,并通过观察碰撞的球体,得出了动量守恒定律。
由于物理定律通常可以用不止一种方式表达,研究人员想知道这个系统是否会提供新的方法(也许是更简单的方法)来思考已知的定律。
这些都是AI启动科学发现过程的例子,尽管在每种情况下,我们都可以辩论新方法的革命性。
也许最有争议的问题是,从数据中可以收集多少信息。在这个庞大的(并且不断增长的)成堆的时代,这是一个迫切的问题。
在“The Why of Why”(2018年)一书中,计算机科学家Judea Pearl和科学作家Dana Mackenzie声称数据“非常愚蠢。”他们写道:
关于因果关系的问题“永远无法从数据中回答。无论何时,当你看到一篇论文或一项研究以一种非模型的方式分析数据时,你都可以肯定,这项研究的输出只会进行总结,或许还会进行转换,但不会解释数据。
Schawinski同情Pearl的立场,但他把“单独处理数据”的想法形容为“有点像稻草人”。他说,他从来没有声称自己能以这种方式推断因果关系。“我只是说,我们可以用数据做比通常更多的事情。”
另一个经常听到的观点是,科学需要创造力,而至少到目前为止,我们还不知道如何将其编程到机器中。Polsterer说:
每次你需要创造力的时候,你都需要一个人。要有创造力,你必须讨厌无聊。我不认为电脑会感到无聊。另一方面,像“creative”和“inspired”这样的词经常被用来描述像“Deep Blue”和“AlphaGo”这样的程序。描述机器“思想”内部的斗争反映在我们探索自己思维过程的困难上。
Schawinski最近离开了学术界的私营部门,他现在经营着一家名为Modulos的初创公司,该公司聘请了许多ETH科学家,据其网站称,该公司“在人工智能和机器学习发展风暴的中心”工作。
无论当前的人工智能技术和成熟的人工智能之间存在何种障碍,他和其他专家都认为,机器正准备承担越来越多的人类科学家的工作。是否存在限制还有待观察。
Schawinski最后表示:
在可预见的未来,是否有可能制造出一台机器,能够发现当今最聪明的人类用生物硬件无法独立完成的物理或数学?科学的未来最终必然是由机器驱动的吗?我不知道。这是个好问题。
英文原文:
第三十四届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:content
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。