3月13日上午,同济大学计算机科学与技术系副教授王伟在CIO时代APP微讲座栏目作了题为《当“数据科学”遇上“自由博雅”》的主题分享,详细介绍了他对数据科学的思考以及数据科学的教学实践。
一、大数据时代的冲击
大数据时代给我们的工作、学习和生活带来了全方位的冲击。
(1)思维模式
大数据作为继云计算、物联网之后IT行业又一颠覆性的技术,备受关注已是毋庸置疑的事实。它好比是21世纪的石油和金矿,是一个国家提升综合竞争力的又一关键资源。大数据既是一类数据,也是一项技术,还是一种理念。大数据的理念、大数据的原理、大数据的应用,每个人都应或多或少地进行掌握。特别是大数据的思维方式,个人认为,大数据的理念和思维方式已经成为人们应该具备的基本常识。
(2)课程教育
从2015年国务院常务会议通过的《关于促进大数据发展的行动纲要》非常强调开发应用好大数据这一基础性战略资源,教育部高等学校教学指导委员会也将“大数据”列为十三五期间高等学校的教学改革和教学建设的重点,同时教育部高等教育司也于2016年在普通高等学校本科专业设置中增加了《数据科学与大数据技术》专业(专业代码080910T),以及面向高职的《大数据技术与应用》专业(专业代码:610215)。新专业的设置为目前国内高校的学科布局带来了新的挑战与机遇。
(3)技术体系
自从大数据出来后,数据管理界发生了巨大的变化,技术驱动成为大数据管理系统的一个主要变革力量,并开始走向成熟。大数据技术的软件栈也基本成型,得到了业界与学术界的基本认可。大数据目前主要的几个发展趋势包括:分布式计算已逐渐成为主流计算方式、数据分析算法逐渐丰富同时工具普及化、Hadoop、Spark及其生态系统将重构数据处理市场、以及大数据产业链日益繁荣等。
因此,“数据强国”已经上升到国家的战略高度,国家领导人也在不同场合多次指出:
“当今世界,科技进步日新月异,互联网、云计算、大数据等现代信息技术深刻改变着人类的思维、生产、生活、学习方式,深刻展示了世界发展的前景。”
“因应信息技术的发展,推动教育变革和创新,构建网络化、数字化、个性化、终身化的教育体系,建设“人人皆学、处处能学、时时可学”的学习型社会,培养大批创新人才,是人类共同面临的重大课题。”
二、数据科学:从大数据到行动
作为大数据背后的学科基础,数据科学可以看作是:“思维+计算机科学+统计+应用”的一个综合体。它包含三个层面的意思:
首先,建立数据思维方式,学习怎样利用数据;
其次,应该了解数据清理、集成、探索等相关技术;
最后,洞见和商业意识也至关重要。
1.数据科学的三大支柱
数据科学天生就是一个交叉学科,和数据科学最为密切的一些学科包括:计算机科学与技术、数学、统计学、信息管理、情报学等。因此,数据科学的三大支柱可以归纳为:
Datalogy(数据学):对应数据管理(Datamanagement)
Analytics(分析学):对应统计方法(Statisticalmethod)
Algorithmics(算法学):对应算法方法(Algorithmicmethod)
2.数据科学的五大要素
在此基础之上,我们凝练了数据科学的五大要素,并用一个我们称之为A-SATA的模型来表示,包括:分析思维(Analytical Thinking)、统计模型(Statistical Model)、算法计算(Algorithmic Computing)、数据技术(Data Technology)、以及综合应用(Application)。这些是数据科学中关键的内容。
3.数据科学的核心知识点
从这个模型,我们可以导出数据科学的核心知识点,这也是后来课程建设的关键:
分析思维(Analytical thinking):包括计算思维(Computational thinking)和统计思维(Statistical thinking)
数学基础:微积分、线性代数、概率统计、离散数学等
数据建模与评估:统计模型、回归模型、模型评估等
算法实现:问题求解能力和算法涉及
数据管理:涉及数据的整个生命周期,包括感知、存储、计算、分析、可视化等。
知识转化:沟通交流,道德规范等。
实际上,目前国内外的很多大数据相关学院、专业都是在围绕上述核心知识点来进行课程开发和整合。同济大学也是如此,例如这学期开设的《数据科学通识导论》课程,便是围绕上述内容展开的。
三、对于数据科学的思考
对大数据和数据科学另外一个重要的思考是希望能将它们作为通识课来进行教授。
首先,数据科学(包括大数据)非常适合作为一门通识课程。所谓通识教育,旨在为学生带来完整的知识结构,养成触类旁通的通用智慧。通识教育起源于古希腊,指公民所应当具备的知识与能力。比起“知识点”,通识课更侧重于“思考点”和“实践点”,因此,它强调的是以学为中心,老师会想方设法去激发学生自主学习,让学生自觉地就思考点去搜集资料、思考问题、表达观点、自我辩护、开展实践,在实践中使思考能力与语言能力,以及动手能力的合一。而这些训练,全都是培养视野广阔、人格完整、智识践行的人不可缺少的。这正是通识教育的意义。
基于这种思想,大数据和数据科学实际上是非常适合作为一门通识实践课程的,可以看到:
数据科学有利于培养信息时代一个健全的人;因为信息时代和数据信息打交道是无所不在的。
数据科学有利于培养跨学科视野;数据科学的本质便是跨学科的。
数据科学有利于培养表达自我所必备的技能;目前的信息时代,包括图表都是一种很好的表达能力。
数据科学有利于培养个人的科学思维方式;特别是数据科学中的量化思维和计算思维。无论是理工科还是人文社科类的学生都应该掌握。
数据科学有利于围绕数据开展实践。因为数据已极大丰富,获取数据已成为越来越容易的事情。
而“通识教育”中有一类特殊的课程是每个学生都都必修的,这就是“自由教育”的课程,其精神支柱和思想来源就是现在经常听到的“Liberalarts”,我将这个词翻译为“自由博雅”。“自由博雅”通常包括自然科学(Sciences),社会科学(Social Sciences)和人文学科(Humanities)三部分。LiberalArts旨在培养一流的头脑、一流的心灵。只有有了一流的头脑与心灵,才有可能产生一流的科学家、艺术家和思想家。否则,大学生产的只是一群高级工匠,知其然而不知其所以然。相对于具体的职业教育而言的,LiberalArts的目标不在于教会学生某些具体的谋生的技能,而是从多方面对学生进行教育,使其成为一个高素质,有教养的文化人。上述有几个方面都和数据科学的“世界观”不谋而合,我认为,Liberalarts理念可以向数据科学注入“博雅”之心,为给数据科学带来:
问正确问题的能力;
科学方法观;
团队协作的精神;
沟通交流的能力;
三观正确的决策。
而这些,也都是数据科学所应该关注的。
四、数据科学课程建设与教学实践
因为在高校的原因,下面我着重说说数据科学在课程建设方面的内容,并结合自己的教学实践谈谈心得体会。从2016年开始,我陆续在学校陆续开设了两门和数据科学(包括大数据)相关的导论类课程:“大数据原理与实践”和“数据科学通识导论”。这里从几个方面简单谈谈。
1.课程内容的设置
首先就是课程内容的设置,以《数据科学通识导论》为例,我们围绕前面提出的A-SATA的模型构建了这门课程的知识体系,包括思维概念、数据技术、数据分析、算法编程和综合应用五大模块,共16节课,基本覆盖了上述数据科学的核心知识点。
2.“自由博雅”实践
其次,我们重点开展了“自由博雅”的实践,总结起来共16个字:建立对话;激发思辨;协作交流;动手实践。这里,我们借助了两个平台:微信公众号平台(微信号:Datahui)和数据科学实践平台(建设中)。
(1)微信公开课实践
为了更好的服务学生,以及体现通识导论课程的性质,我们借助了“微信”这个强大而普世的平台开展师生之间的连接和互动。例如,每周课程的更新方式如下:
周二:发布本周课件初稿,授课;
周三、周四:互动、点评与问答;
周五:发布最终版课件以及相应文本注释;
周末:课外阅读文章。
希望通过这种方式,激发出学生与老师的潜力,可以很好的建立老师和学生之间的连接,围绕数据科学进行师生互动,结合课程思考题,达到建立对话、激发思辨的目的。
(2)数据科学实践平台
实践出真知,数据科学者们课程尤其如此。因此,我们采取了多种方式相结合,尽量给学生提供数据以及动手的机会,达到协作交流、动手实践的目的。这里主要包括三类:
课内的课程设计
引入课外竞赛:Kaggle、上海SODA、阿里巴巴天池等
数据马拉松(Datathon):类似Hackthon,以集中的时间完成项目
同样,结果还是比较令人满意的,学生做出了一些非常令人赞叹的作品,例如:上海地铁系统进站流量图、基于人流指数预测的商圈公共安全预警系统、轨道交通运维大数据分析等。部分作品获得了一些相关比赛的奖励,也产生了教研结合的后续项目。
五、大数据实践平台建设
数据科学的时间需要一个非常好的平台,为老师和学生提供实践服务。由于是大数据的原因,希望能引入校企合作,目前也与上海的大数据高科技公司共同建设大数据实践平台。目前的大数据还是技术驱动型的方面,很多技术还不完善,高校研发力量无法跟上国家大数据的发展,需接触一些企业界来共同合作。
包括课程体系、习题库、在线实践、案例库还是比较容易解决的,但大数据还需强大的基础设施来指导实践,随着大数据的成熟,在平台建设方面会更加便捷。
六、总结:未来的挑战
目前高校的数据科学实践平台还非常依赖于技术,愿景是好的,挑战也颇大,特别是在技术上:数据上云、分析上云、教育上云等,同时,容器技术、HCI技术、分布式处理技术等也面临着很大的挑战。
愿景是希望未来建设P级的大数据公共实践教学平台,可以为一个学校,甚至是一个区域资源优势共享的目的。
谢谢大家今天的收听!我今天的分享就到这里,大家后面有什么疑问可以后面联系我进一步了解,同时也欢迎关注我们的公众号,给我们多提出宝贵意见。
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:王伟
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。