CIO时代APP微讲座:中国人民大学陈禹探讨大数据研究要注意的两个问题

2017-05-11 09:44:15  来源:CIO时代网

摘要:5月6日,中国人民大学信息学院教授、博士生导师陈禹在CIO时代APP微讲座栏目作了题为《大数据研究要注意的两个问题》的主题分享。
关键词: CIO时代APP 微讲座
\

        5月6日,中国人民大学信息学院教授、博士生导师陈禹在CIO时代APP微讲座栏目作了题为《大数据研究要注意的两个问题》的主题分享,谈到了大数据研究中的两个问题:一方面是重视应用领域的复杂性和特点,另一方面是注意现有统计算法的局限性。

\

  大数据的研究和应用,已经引起了广泛的关注,这是值得高兴的。但是如何科学地、有效地开展大数据的研究与应用,是值得我们思考的。冯·诺依曼说,现在的经济科学缺乏大数据,缺乏海量的数据分析。我们现在的数据还不足以研究我们面临的所有问题,我们要将很大的注意力放在数据的搜集上,但在同一篇文章中,冯·诺依曼明确指出了,对于概念尚不明确的数据进行大量的计算是毫无意义的。

  和冯·诺依曼的时代相比,我们今天的数据要多得多,但冯·诺依曼指出的理论思考与数据分析的有机结合仍然是我们值得注意的问题。如今有一个说法认为,只要有足够的数据,具体领域的知识、具体的思想方法、具体的理念都已经不重要了,甚至有的说法认为,逻辑关系和因果关系都已经不重要了,个人认为这种观点是不正确的。实际上,近年来已经看到了很多事实,如黑天鹅事件很多,很多统计分析得到的结果与现实差别很大。因此,经常用到马太效应、肥尾效应等词,不论在自然科学中,还是在社会科学中,现有的统计方法具有一些根本性的弱点,并不是说统计方法不重要,而是要知道统计方法隐含的前提便是所谓的同质,我们事先要假设所有的统计数据是面对同样的实体。但现实比任何理论都要丰富得多,我们很难要求现实中的多样化实体遵从完全同样的事先假定的同质化。正因为这样,很多的分析往往和现实相去甚远,这种情况在近几十年越来越多。进一步根本而言,可以看到,问题出在研究的基本理念上。

  一、大数据更需要科学的思想方法

  今天包括理工科和文科,几乎所有学科的思想方法都是近代科学思想方法。其主要弊病在于将客观世界过分简单化、过分同质化,没有看到客观世界的复杂性,因此,当其理论用到现实中时,往往会和显示出现种种差距。这种情况大约在一百多年前由爱因斯坦、普朗克等伟大的科学家首先发现,这一百多年来,科学家们在各个领域中,越来越多地发现原有理论的同质化、简单化所造成的的诸多问题。这种情况越来越多地引起了学者们的注意,因此目前在学术界已经出现了一个新的研究潮流,即所谓复杂性研究的研究趋势。

  二、复杂性研究

  复杂性研究并不是一个具体的学科,而是一种思想方法,这种方法强调的是承认世界的复杂性,重视客观事物的质的多样性、质的无限性,正是我们面对的种种不确定性。这方面最著名的表述是著名的学者赫伯特·西蒙和约翰·霍兰,他们在上世纪末对于复杂性研究的基本理念进行了系统的叙述,得到了各学科的广泛注意。因此,我们在研究大数据时,首先要摆脱近代科学所造成的束缚,要认识到客观世界不仅在量的意义下是无限的,而且在质的意义下也是无限的,特别是层次的概念,当跨越一个层次时,其规律、现象都会产生新的变化,这种现象在学术上叫做涌现。

  约翰·霍兰有一本书叫《涌现》,对于各学科中出现的涌现现象进行了深入的比较,而在赫伯特·西蒙的一书《人工科学》中,进一步将客观复杂系统的层次性进行了深入地分析。其实,复杂性研究的出现很大程度上便是我们经常讲的系统科学、系统工程方法的进一步深化,大家都知道一加一大于二,对于为什么大于二、怎么大于二还远远搞清楚。因此,当我们在用一些传统的统计方法加工数据时,都是按照一加一等于二的思路,而客观世界是一加一大于二,差距便由此产生了。今年的两个突出事件便证明了这一点,一个是美国大选,一个是英国脱欧。并不能说这些调查分析机构的分析少,也不能说其计算方法不正确,但事与愿违,出现了所谓的黑天鹅事件。除了其他的种种原因之外,很重要的一点是他们对于现有的统计方法、计算方法的局限性没有客观的认识。

  因此,大数据研究中的两个问题是一件事的两方面,一方面,我们要对于所有的分析方法和分析理论框架要有一个不断改进、不断扩充的思维方法,绝不能认为一种理论能放之四海而皆准,在任何情况下都能适用。比如牛顿力学,并不能说牛顿力学不对,也不能说牛顿力学在任何情况、任何尺度、任何问题中都是适用的,爱因斯坦和普朗克的贡献恰恰就在这里。另一方面,我们现有的统计方法都拿来做数据分析、数据研究,这无疑是必要的、重要的,但我们要明确目前所说的数据方法的局限性和前提,因此,和冯·诺依曼的时代相比,我们今天已经有很多的数据,已经能有很多方法去收集以前收集不到的数据。这是和前人相比比较幸运的地方,但大数据绝不等于不要理论、不要思考。

  还有一个相关的问题是我们对于各个领域的特殊性认识,我们常说隔行如隔山,每一个领域有特殊的知识和规律,但我们将大数据方法用到某一个领域时,一定要将该领域的特殊性放到首位,要深入地了解和掌握实践所提供的丰富材料,认识到在这个领域中应用到大数据的分析方法应该要注意的与其他领域不同的特点。这也可以说是强调实践的观点,我们说,研究大数据要顶天立地,顶天是指对世界有一个要有现代的信息技术、掌握尽可能多的数据,立地是指紧密地结合具体领域的问题,如经济问题、金融问题、电子商务问题等等。

  大数据得研究和应用是非常具体、非常实际的,很难笼统的说应该怎么做、应该给学生教些什么,但我们如果对于理念与方法有一个科学的、比较统一的认识,便可以对这个领域的拓展作出应有的贡献。

  三、方法问题和教学问题

  大数据技术目前有很多方法,但用得最多的还是统计方法,还有概率论等,但这些方法各有千秋,各有各的用处。作为大数据的研究者,对于每种方法都要进行认真的研究和分析,包括分析结果的可视化,但这是很具体的技术问题,我们作为大数据的研究者,要将所有的东西作为我们的工具箱。工具是重要的,而且是越多越好,各有各的用处,但不要以为一种工具能解决所有的问题。与此相关,便是教学的问题,我们要培养的大数据人才应该是能在各个具体问题中发挥大数据的作用。因此,对他们而言,一方面要理解世界的复杂性,准备应对各种各样不同的质的问题,另一方面,要掌握尽可能多的工具,用适当的工具解决适当的问题,这便是大数据研究中需要注意的两个问题。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:houlimin

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。