4月27日,中南大学信息院教授张祖平在CIO时代APP微讲座栏目作了题为《数据科学与大数据技术专业申报与建设》的主题分享。详细介绍了数据科学与大数据专业申报的九个角度。
一、市场需求
目前来看,大数据毫无置疑应该作为一个专业来申报,但最初还是很多声音存在的。我们在申报时,一般要从国际国内市场需求的角度以及发展形势来进行分析,同时也包括区域性的作用和要求,例如中南大学座落在湖南省长沙市,就有必要讲如果大数据专业申报成功的话,将为湖南省所带来什么样的作用,为长沙市带来什么样的影响,同时相应的要响应区域性的政策与相关的发展导向。
就整个的人才需求而言,现在网上有很多数据在响应这个话题。近几年,相关数据显示相应的产值和需求,但这仅仅是专业申报时的一种说法。从考生角度来看,2015年我们计划在计算机科学与技术专业中建立大数据的方向,计划招收2个班,面对全校新生提出了具体的方案:一个班来自于计算机学科,一个班来自其他相关工科专业。但实际情况是,2015年大数据还是相对比较冷门,很多人还对这个专业的认识不够,不确定其市场的接收程度,因此我们最后只招到了35个人。在2015年申报完成数据科学与大数据专业后,2016年的正式招生的情况有明显好转,面向全国招生的数据科学与大数据技术专业的分数明显高于计算机及信息安全专业,这表明大家已开始认同了这个专业。到目前为止,今年又有32所学校成功申报了这个专业,至此就有35所高校有数据科学与大数据技术专业了,可以说已经得到政府部门的认同。
二、指导思想
原来在申报时,国内一直在讨论这个专业是理科专业还工科专业,还是理工相结合的专业,这便涉及到专业的培养定位问题。由于数据科学与大数据技术考虑的是理论与技术结合,应该既有理论,又有技术,属于理工相结合的专业,但根据学校可能有偏重,我们学校是工科专业,北大是理科专业。
具体将数据科学与大数据技术专业定位为以现代计算机与网络系统为依托,专注大数据采集与管理、大数据分析与应用的新理论和新技术,培养解决大数据系统建设整体性问题的高级复合型人才的专业。同时,能够承担企事业单位、政府部门、社会组织的信息分析与管理系统、信息咨询服务平台、信息共享网络等项目的专业技术工作。当时规划第一年招收60-70人,五年内扩展到90人。其中需要考虑对已有专业与传统专业的格局影响问题,这个专业既与计算机科学专业相关,又与软件工程相关,因此,需要与这两个专业形成优势互补的关系。另外,随着大数据专业的兴起,还有一些传统的老专业,如医学信息学、信息管理与信息系统、审计学、情报学、管理信息系统等,慢慢的会被融合甚至淘汰。
三、培养方案
其中也涉及到定位问题,一方面要结合新的发展趋势,另一方面要考虑自身的条件。具体包括以下几个方面:
1.知识要求
大数据需要具有较好的数学基础,数学方面要有核心的课程,同时还应具有一些领域的基础,这就需要一些相关特色领域的业务内容。当然,本身的计算机基础也是需要的。因此,规划了一些课程,如计算思维和数据科学等数学相关的课程,领域相关的如大数据与领域建模、医药信息系统等,与大数据直接相关的数据采集技术、云计算与数据中心、、医疗大数据等等。在计算机方面如一些大型数据库技术、数据可视化技术、机器学习与模式识别、非结构化数据处理技术、分布式海量存储系统、数据安全等等。
2.能力要求
首先要具备大数据应用系统的设计与实现能力,特别是在数据分析、数据管理、数据存储等方面,应该受到较为系统的工程训练,能发现、分析和解决实际工程技术问题。
具备良好的工程项目交流、表达、组织、管理、协调与沟通的能力。例如在做实验的过程中,原来强调个人独立训练,目前在课程设计和环节中强调团队。
了解信息科学、计算机学科、数据科学的发展动态,并掌握相关文献检索方法,具有基本的专业资料分析与综合的能力,良好的文档与科学论文撰写能力。
具有较强的创新意识,一定的创新创业能力。
3.素质要求
这方面也是需要的,如道德修养、集体主义精神、理想信念等等。
在培养方案中,起初规划是180个学分,必修136.5,选修是13.5,具体体现为几个模块,如公共基础课程、学科基础课程、专业课程、素质拓展环节等方面做了一些规划。
最后,设立了一些主干课程,如信息论与编码、计算思维和数据科学、离散数学、数据结构、操作系统、数据库原理、计算机网络原理、数据挖掘、数据安全等等,也设立了一些特色课程,包括数据采集技术、云计算与数据中心、机器学习与模式识别、大型数据技术、数据可视化技术、图像视频与非结构化数据、分布式海量存储系统、大数据与领域建模、医药信息管理、医院信息化、医疗大数据等等。
四、学科基础
这里涉及到一些特色实验室,如2012年的教育部“移动医疗”重点实验室、2013年的湖南省金融货币识别与自主服务平台工程技术研究中心、2010年的湖南省区域医疗信息共享与协同服务示范平台、2014年的声探测与信息对抗湖南省国防科技重点实验室、2015年的湖南省“医学大数据”协同创新中心、2016年的网络资源管理与可信评估服务湖南省重点实验室、2017年的医疗大数据国家工程实验室(共建)。
学科是专业的一个支撑,中南大学相关的计算机学科名列前20位,ESI进入全球1%,另外,还有一些国家、省级奖励作为支撑。学科基础对专业支撑很重要,由于有相关的特色学科及相关平台,我们第一批申报能获得成功。
五、师资队伍
这是一个看起来没问题但实际有问题的方面。当时在申报专业时,软件学院、信息安全与大数据研究院等均有参与。目前在中南大学,相关的教师有一百多人,其中信息科学与工程学院的计算机科学与技术系及软件学院有90多人,信息安全与大数据研究院有80多人,网络信息中心有30多人等。从办学结构来看,有专业的教师、博士、学者等作为支撑。但在建设过程中,还存在着复杂的问题,主要是新的课程要安排下去,不是一个容易的事情。
六、基本条件
首先是实验室,如果原来是计算机专业来支撑大数据专业,那还好,有计算机,还有云计算与大数据平台作为服务,当然还需要科研的相关平台来支撑。通俗而言,大数据专业的实验室是烧钱的,因为大家都知道投入比较大,投入小做不成像样的大数据实验室。我们申报的时候算有一些基本条件,当然还包括一些教学内容的筹备,主干课程、特色课程等教学大纲的处理等工作。
七、办学特色
第一,具有医学与医药、轨道交通、有色金属工业领域的行业特色和优势。
第二,具有“湖南省医学大数据协同创新中心”、“医疗大数据平台”、“轨道交通大数据平台”等基础设施方面的实践性教学特色与优势。
第三,专业本身面向社会强烈人才需求,创立人才培养体系。
第四,具有交叉型学科群与人才团队合作的优势。多学科多学院合办大数据专业,与已有专业交叉融合,促进传统专业发展。
第五,特色系列教材建设与特色学科方向。具体有透明计算与主动服务、计算优化及应用、计算机视觉与数字医疗、可信计算与计算机网络、网构软件与网络资源管理、数据科学与医学大数据,主要是医疗大数据整理,形成真正的医疗大数据环境。
下面有向个相关的平台给大家介绍一下,首先是医疗大数据国家工程实验室包括医疗大数据标准、智慧终端、大数据系统、网络搜索、智慧管家、智慧医院等核心技术。湖南省“医学大数据”协同创新中心主要做了“1中心4平台”:医学数据科学理论与技术研究中心、医学大数据集成共享平台、医学大数据处理分析平台、医学大数据应用研究与创新平台及大数据驱动网络信息服务平台。如果没有相关平台作支撑是办这个大数据专业是很困难的,一方面我们充分利用现有互联网上公共的数据,另一方面要从科研平台中挖掘出相关的数据。
网络资源管理可行性评估重点实验室,主要针对目前的互联网、物联网中的数据感知、数据关联及资源中的监管、交易、封装、评估和发布等,面向科技大数据、智慧城市、智慧工厂、智能制造等。将来办学进行的大数据分析,需要有一个落脚点,包括面向全国共享的云平台,另外,也需要自身的学科支撑,具备大数据来源和分析平台才能站住脚。
八、课程调整
调整前做了34门课程,包括实习、实训、语言的课程,随着专业的批复和正式招生,落实到老师时产生了很大的困难。从现实的角度,目前我们重点建设16门课,包括新生课、数据科学与大数据技术导论、数据采集与融合技术、信息组织理论与技术、科学计算与数据建模、数据仓库与数据挖掘、Python数据处理编程、R语言数据分析编程、信息组织课程设计、分布式系统与云计算、数据处理方法课程设计、智能搜索引擎技术、医疗大数据、大数据编程、大数据综合应用实践及深度学习。其它的课程一方面的计算机科学与技术专业开,同时也为大数据专业开,就不算新课了,另外开出确有困难的课我们是没办法,最后拿掉了。
九、专业实验中心建设
实验室的投入是很大的,但可以利用科研平台的共享来支撑大数据专业的教学与实验,首期落实投入90万,已经完成了招标并正在落实建设,具体在大数据计算资源池、大数据实践教学管理平台专用服务器、VDI并发授权、大数据实践教学管理平台、大数据可视化分析教学资源、R语言教学资源、R语言教学资源、大数据实践教学系统环境等方面展开,长远规划了大数据专业实验中心,投入近600万元,各个学校可以根据自身条件进行选择性建设特色实验室。