CIO时代APP微讲座:为什么《数据科学》是现代人才的“必修课”?

2017-01-13 16:52:12  来源:CIO时代网

摘要:1月13日下午,中国人民大学信息资源管理学院副教授朝乐门在CIO时代APP微讲座栏目进行了题为——为什么《数据科学》是现代人才的“必修课”的主题演讲。
关键词: CIO时代APP微讲座 《数据科学》
\

  1月13日下午,中国人民大学信息资源管理学院副教授朝乐门在CIO时代APP微讲座栏目进行了题为——为什么《数据科学》是现代人才的“必修课”的主题演讲。以下为演讲实录:

\

  大家好,我是人民大学的朝乐门。今天我们只讨论一个why的问题——为什么《数据科学》是现代人才的“必修课”?

\

  “数据科学”是什么?“数据科学”是大数据背后的科学。大家静下来想一想,“大数据热”到底给我们带来了什么呢?带来的是各个学科领域所面对的“数据”变了,导致我们对数据的“认识”也发生了改变。当然,这还不是问题的关键,问题的关键在于,大数据这场“风暴”过后,它会“留下”什么?留下的是《数据科学》。至于“数据科学”的规范定义,今天不讨论。如果你感兴趣,可以查阅我的《数据科学》一书,书中给出了规范定义方法。

   \

  现在,很多人都在纠结于大数据的这个“大”字之上,都在试图诠释现代社会的“数据规模”有“多大”,其实这是一种“曲解”。所谓的“大”是相对概念。人类历史上,每过一段时间,人们都会觉得信息量“大”了,“大”到要“快要爆炸了”。比如,一百年前的科学家也曾感到当时的信息已经“爆炸”了,他们觉得学术论文一下子“多得不得了”,都看不过来了,开始要求写“摘要”(abstract)。从现代人的眼界看,一百年前的所谓“信息爆炸”不算什么。同样,今天所谓的“大数据”对于一百年后的人们来说也不算什么。

  那么,“大数据”就不重要了么?不是。我的意思是,“大数据”的“奥妙”不在于其“大小”上,而在于“我们所面对的数据变了”。怎么讲?看上面这个slice。近年来,随着“云物移大智”等新技术的普及,我们获得、存储和处理数据的能力提升了;结果是,我们所面对的“数据”变了;更重要的是,传统知识,如各领域中的传统理念、理论、方法、技术、工具等无法处理“这种变化了的新数据”;最终结果呢,各学科需要重新认识“数据”,并必须在认识论和方法论层次上重写自己学科领域“知识”。

\

  如果仔细观察出,我们会发现一个很奇怪的现象——现在几乎所有的领域都在高谈“大数据”,但是每个领域对“大数据”的理解不同。每个领域都认为自己做的才是“真正的大数据”,总是怀疑另一个领域所说的“大数据”,并不是“真正的大数据”。那么,谁对谁错呢?我的观点是,大家不要总纠结“大数据”中的这个“大”字,如果非要关注,也不要仅限于“量的大小”,而是理解成“大的变革”。也就是说,传统学科所面临的“数据”有了“大的变革”。随之,各学科要做的工作、要用的方法以及要面对的问题的也需要变更。可以这样理解,大数据时代到来之前,每个学科对数据都有自己固有的一套认识和处理方法。但是,大数据时代的到来,迫使人们改变这些传统认识。

  数据变了,与每个学科中固有的数据认识论不同了。原来我们一直以为数据是“那样”的,但现在却变成“这样”了。以社会科学为例,以前我们都是挑选一些关键节点进行采集数据,如小区进出口有个大爷,登记你的姓名,进去了就没有其他记录了。现在,小区门口,小区内都有摄像头,采上来的数据比较全面,那么,这种数据又如何处理和分析呢?在传统理论中找不到答案。这就,我们需要一个新的理论——大数据理论,即数据科学。

\

  那么,我们再讨论一个更深层次的问题——为什么基于“小数据”的传统理论就不能解释“大数据现象”了呢?“大数据”不就是“小数据”的集合吗?没那么简单。大数据不是小数据的“简单集合”。从“小数据”到“大数据”的过程中产生了“涌现”现象,大家看这个slice。这个slice告诉我们,“涌现”才是大数据的本质特征。所谓的“涌现”就是系统大于元素之和,或者说系统在跨越层次时,发生了新的属性或新的质。比如,大数据中个别数据可以有误,允许缺失、冗余、垃圾数据的存在,但不影响大数据的质量;再如,大数据中的每一条数据都“没什么用”,但放在一起就“很有用”;大数据中的,每一条信息都“不是什么秘密”,放在一起“就得保密”了。

  听到此处,你可能说“在说什么呢?怎么开听不懂了”。这样吧,我给你一个不是很恰当的例子来解释什么是“涌现”吧。有人研究过黑人闹事现象之后,发现了一个很奇怪的现象。当这些人一个个独处时,是很老实、善良,甚至有点胆小,那么,聚在一起就不老实了,经常闹事了呢?研究发现,这些人的“理智指数”与“聚集人数”成反比,当聚集人数很多时,每个人的理智几乎等于零,一个弱女子都变得非常恐怖。也就是说,从小数据到大数据,会涌现出很多你想象不到的特征。

  回到“大数据”这个话题,用大数据为例子说明这个“涌现”现象。比如,交通大数据,街上有很多摄像头,交通部门收集了大数据,你要跟交通部门要数据,他们说保密,不能提供。你可能会很郁闷,为什么呢?凭什么呢?你会特别‘想不通’,大街上发生的事情是公开的,摄像头也是公开的,摄像过程也是公开的,那怎么到他们那里就成了“保密”了呢?越想越想不通,越想越生气。其实,从数据科学角度讲,交通部门的做法是合理的,而你想得太简单啦。你想想,交通部门的每一条数据都不是什么保密的,但是这些不保密的数据放在一起,就不得了了,可以分析出你的行为习惯,危害到个人隐私、社会安全、甚至国家安全。这就是,大数据的“涌现”,也是为什么不能用基于“小数据”的理论不能解释“大数据现象”的原因所在。

\

  各学科领域是否意识到这种变化了呢?答案是,当然已经意识到了。大数据出现以后,似乎对每个学科领域的影响很大,大到什么程度呢?似乎,每个学些都怕死,如统计学怕死,都在喊我是数据科学的祖宗,至少是他的亲戚,或朋友。比如,呼声最高的是统计学和计算机科学。结果呢,都怕死,都开始主动去“拥抱”大数据,于是出来了很多新学科,请看下一个slice。

\

  比如,新闻学与大数据交叉后,产生了一门新的研究领域——DataJournalism。还有,金融和大数据交叉之后,出现了“大数据金融”,很多学科中都出现了一个新的方向。那么,我们进一步想一下,这些新的学科交叉会出现什么?或者说,这些新的学科中有哪些共同性理论呢?那就是数据科学。也就是说,数据科学将会是学习这些领域知识的基础理论。

\

  上面说的都是比较遥远的事情,对于很多人来说,都是“难以体会到”的问题,来一个离你最近的例子吧?请问,你在做研究时,比如写论文做课题时,在用什么“研究方法”呢?是不是还在“问卷”和“访谈”?再看看,Jimgray的观点是什么?我是想提Jimgray的第四范式理论。Jimgray是谁呢?图灵奖的获得者,学过数据库的都知道他,一个伟大且神秘的科学家。JimGray提出的科学研究的第四范式又称《数据密集型科学发现(Data-intensiveScientificDiscovery)》。在他看来,人类科学研究活动已经历过三中不同范式的演变过程(原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”),目前正在从“计算科学范式”转向“数据密集型科学发现范式”。第四范式(即“数据密集型科学发现范式”)的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识,无须直接面对所研究的物理对象。例如,近年来天文学家的研究方式发生了新的变化——其主要研究任务变为从海量数据库中发现所需的天体活动的照片,而不再需要亲自进行太空拍照。那么,JimGray提出的第四范式对我们的科学研究有什么意义呢?意义在于,绝大部分大学生的研究范式有待调整——他们往往习惯性地“采用问卷调查法等方法亲自收集新数据”,而不是“首先想到有没有现成的大数据以及如何再利用已有的数据(数据洞见)”。我是再强调一次,在大数据时代研究范式需要调整,你需要学习的专业理论、方法、技术、工具、最佳实践都需要拓展,甚至必须改变。这就是,我为什么说“数据科学是现代人才的必须课”的原因所在。

\

  由于时间所限,至于数据科学的理论体系以及如何学习数据科学、注意哪些事项、到底什么事大数据研究范式等what、how、when、where、who等更多问题,我们今天就不讨论了。如果你想进一步学习,建议你读我写的书《数据科学》(清华大学出版社)。当然,也呼吁大家多读经典文献,多做最佳实战,注意数据科学的“3个要素”和数据科学家的“3C精神”。

  最后,再次感谢大家。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:朝乐门

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。