2月15日,哈尔滨理工大学软件学院院长、教授孙名松在CIO时代APP微讲座栏目作了题为《大数据在高校智慧校园中的应用》的主题分享,具体从小数据时代与大数据时代、大数据在高校智慧校园中应用的案例两部分展开叙述。
一、小数据时代与大数据时代
“数据(data)”在拉丁文里的意思是“已知”,也可以理解为“存在”。所以“数据”就是“存在”,“大数据”就是“大存在”。研究大数据,就是研究大存在,亦即研究一切物质、一切行为、一切思想,以及人类自身。
数据充斥并改造着人们的生活、工作。数据化是指把现象转变为可指标分析的量化形式的过程,其中包含对世界的梳理、理解,并形成可保存的经验。计算和记录共同促成了数据的产生,是数据化的根基。而数字化是把模拟数据转换成0、1表示的二进制码,方便人类使用现代技术对数据进行更好的处理。数据化是一种思想,数字化是一种手段;数据化古而有之,数字化方兴未艾。
小数据时代依靠随机采样,其原则是以最少的数据获得最多的信息。但如此,则无法了解一些微观细节,不利于对某些特定子类进行分析。而“参差不齐是世界的本质”,细节缺失将会影响到对整个自然活动、人类活动的探索与研究。此外,随机采样以研究者的理论前提为设计基础,只能对已遴选的问题进行解答,而难以虑及其他问题。也就是说小数据时代是以极其有限的信息面对有“偏见”的问题。
大数据时代,意味着将世界数据化,意味着世界的本质就是信息。世界不仅被看成一串事件的组合,更被看做信息的集合,数据的集合。这是世界观的深刻变革:人类具备以往认识并处理事件的经验而不盲从于经验,人类采集“数据”但更明确“所见、所思、所得”皆为“数据”,我们生活在数据的海洋之中,我们自身即为数据。
以上,从小数据时代到大数据时代,伴随或产生了以下几种转变与认识:
1、意识到“样本”等于总体。用更大、更全、更综合的态度来观察、理解、关照世界。
2、大数据对于精确性的要求降低。在小数据时代,因为数据少,所以对数据的精确度要求非常之高,而当大量数据出现时或者要求数据量大时,必然需要接受数据的纷繁复杂。
3、要意识到数据错误并不是大数据的固有特性,而是需要处理的实际问题,该问题可能长期存在。
4、混杂绝不等于错误。混杂是大数据的常态,且应该是一种基本态和标准态。
5、大数据揭示了传统样本无法揭示的细节信息,大数据是通往“精准”处理的基本途径。
6、大数据时代,不再热衷于追求因果关系,而是试图探寻不同事物之间的关系,在此基础上找到可供观察的关联物,以进行预测。而预测,是大数据应用的核心所在。
7、相关关系被阐释之后,可进行因果关系的分析。但是必须注意到,因果关系只是相关关系的特殊形式,因果关系在大数据时代已经不是解释世界的基础;相关关系是一种较为普通的存在,在大数据时代更容易被发掘,可以更高效地指导实践,甚或随着大数据的发展,以往的因果关系可能会被证伪,或被视为相关关系。
其中第1点是大数据对于认识论的改造;第2—5点体现了大数据时代与传统时代对数据要求的迥然不同;第6和7点则是数据间逻辑关系的优先性的颠覆。从实践的角度而言,第1点可以作为前提,第2—5点可以作为数据搜集与处理的准则,第6和7点或可作为数据解释的指导方向。
二、大数据在高校智慧校园中的应用
2015年国家提出并制定了“互联网+”行动计划,将“互联网+”上升到了国家战略。“互联网+”的提出必将给高校智慧校园建设增加新的内涵、注入新的动力。借助“互联网+”推动数字校园加速向智慧校园升级,充分利用云计算、物联网、移动互联、大数据等一系列新技术、新理念、新模式,打造全新的大学智慧校园,有力支撑大学未来发展战略,带动人才培养及评价方式的创新、提升校务治理水平,提供多层次的个性化服务和智能化管理决策,大学智慧校园建设的核心内涵可以概括为“全面的环境感知、无缝的网络互通、弹性的云生态圈、海量的数据支撑、开放的学习环境、个性化师生服务、智能化管理决策、高效的校务治理”。
高校在信息化进程中,产生了各类结构化和非结构化的数据,包括教学管理数据、教学资源数据、学生信息数据等,大到高校的治校方针策略,小到学生的日常消费,数据繁多,类型复杂。利用大数据技术对这些数据进行搜集、分析,转化为高校管理与服务可利用的资源,将对智慧校园建设起到非常重要的作用。
下面举例说明大数据技术在智慧校园中的应用。
1、综合校情展示
对学校管理者而言,通过综合校情分析展示,可以对学校的在校生情况(本科生、研究生)、课程情况、科研成果情况、奖助情况、就业情况、教工情况、教师分布、干部情况、家具情况、资产情况、房屋情况、排名情况、消费情况等方面进行直观的了解和横向纵向的对比。结合历年数据变化规律可以为辅助决策提供依据。不同系统之间数据的关联性或许能够给管理者决策提供新的思路。
综合校情展示主要包括基础数据分析展示和行为数据分析展示。
基本数据分析:如招生数据分析、学生数据分析、毕业数据分析、教师数据分析、课程数据分析、成绩数据分析、就业数据分析、高校资产数据分析等。
行为数据分析:学校食堂就餐情况分析、一卡通消费行为分析、上网行为分析、图书借阅行为分析、图书馆使用时长、上网时长/流量和成绩之间的相关性分析、重点人群群体的特征刻画分析和预警等等。
举例说明:
(a)高校就业信息统计。从高校学生的毕业去向、就业单位、就业地区、就业行业、就业薪资等多维度进行统计分析,全面呈现高校就业情况,为高校就业办发现学生就业规律、有针对性的进行学生就业指导提供支撑。
(b)教学信息统计分析。为校领导呈现了高校热门课程排行、各院系开设课程统计和学生成绩统计分析、挂科率分析,全面呈现学生在校期间的学习与成绩分布,为指导高校课程开设、提高学生成绩提供支撑。
(c)一卡通统计分析。展现了高校学生整体消费能力、消费偏好,为后勤部门了解学生餐饮、购物偏好,有针对性的提升服务水平提供支撑。
(d)各生源地消费能力。按照生源地统计该地区学生的消费能力,来详细查看在某一段时间学生消费额和消费次数的统计。
(e)学校网络使用状况分析和学生上网行为统计。通过对学生上网的地址进行统计、分析,结合其基础的个人信息数据,可按不同的维度,比如性别、籍贯、院系等来统计出不同类别的人群,对于某类网站的使用频率。如果记录的日志足够详细,甚至可以统计出学生在网上消费的喜好或偏向,对于后勤或学工等部门也是一个比较重要的参考。
应用到的相关技术有:数据关联分析、多源数据整合、海量日志数据处理、benchmark、指标体系建立、AgileBI、全文检索引擎。
2、公共资源使用情况分析
对于高校而言,食堂就餐、体育场馆、教室、图书馆、校医院等各类公共资源有限,师生没有很好的途径获知这些资源的服务能力情况,导致经常发生排队、拥挤的情况,给师生学习、生活带来了不好的体验。随着学校信息化的推进,各部门管理信息系统逐步建设并投入使用;随着技术的发展,特别是物联网和智能感知设备的出现,使数字校园智能服务成为了可能。
数据来源于一卡通消费、一卡通门禁、无线网、校园安全视频监控等。
(a)食堂、澡堂人员密度状况及建议各食堂、公共澡堂各时段就餐人员密度情况,各类人员(年级、籍贯、职称等)就餐爱好、习惯等。
(b)教室使用状况、人员密度、各时间段教室使用情况、教室人数等;基于无线网络进行考勤。
(c)会议场馆、体育场馆使用状况及人员密度。为师生提供会议场馆的可用性查询,体育场馆的使用情况(有课、无课等),以及人员密度发布。
(e)图书馆座位使用状况及人员密度发布,提供图书馆座位空闲情况及图书馆内人数等。
(f)校内人员密度分布。根据学校无线网数据、安全视频监控信息,识别学校人员热力分布图。
应用到的相关技术有:数据关联分析、数据挖掘(聚类分析)、海量日志数据处理、多源数据整合(日志数据与结构化数据整合)、高速内存数据库、分布式全文检索引擎。
3、个人数据报告
面向校园师生用户提供个性化数据服务,展现师生在校园内学习、消费、生活、健康等
方面的个人行为习惯以,帮助学生从严谨的数据分析更加了解自己,以及与他人的差异,帮助校园师生感受信息化带来的人文关怀与改变。
数据来源自一卡通消费、图书馆门禁、图书借阅系统、校园网络系统、体育场馆门禁等。
(a)校园卡账单及消费习惯分析报告;
(b)图书馆进出频次、时长及借阅习惯分析报告;
(c)网络账单及上网习惯分析报告;
(d)体育健身锻炼学期报告。
通过高校官方微信号、APP进行手机推送,移动互联网时代方便用户及时阅读、分享、传播。
面向校园师生用户提供个性化数据服务,展现师生在校园内学习、消费、生活、健康等方面的个人行为习惯以,帮助学生从严谨的数据分析更加了解自己,以及与他人的差异,帮助校园师生感受信息化带来的人文关怀与改变。
应用到的相关技术有:数据关联分析、数据挖掘(用户画像)、海量日志数据处理、多源数据整合。
4、图书馆电子期刊资源使用效率分析
高校每年花费资金购买著名期刊论文集,为师生用户提供便捷的文献检索和下载服务。图书馆电子期刊资源的使用情况、不同学科对于不同电子期刊资源使用偏好的差异,是图书馆亟需了解的内容。通过对高校用户期刊文献检索记录的大数据分析,优化论文期刊购买方案,使图书馆可以采购到师生更加需要的资源(传统纸质+电子资源),提高现有采购效率。
学校通常的做法是向数据商(如万方、CNKI)购买电子期刊资源访问统计数据,而这种方式基于学校整体访问数据做统计分析,无法基于用户做访问详情的分析统计,从而无法获取到基于不同学科门类、不同学院和专业特点、不同教师等级的不同人群期刊访问情况分析,也无法了解到不同资源库的使用情况横向对比分析。对师生的检索关键词进行挖掘也是非常重要的方向,而传统的做法无法了解学校师生用户检索电子期刊资源的检索偏好、检索热门等具体信息。
出口网络日志数据记录了师生访问电子期刊资源库的行为,通过大数据技术对出口URL日志等数据进行处理及关键信息提取,关联学校内部用户信息数据,将实现图书馆电子资源使用的全面分析以及人群分析,为图书馆采购决策提供辅助。
数据来源自图书馆采购电子期刊资源列表、师生上网URL日志、师生上网身份认证等。
应用到的相关技术有:数据关联分析、海量日志数据处理、多源数据整合(日志数据与结构化数据整合)、分布式全文检索引擎。
5、校园舆情监测
在移动互联网大潮之下,无论是正面信息还是负面信息都会以更快的速度传播。学校声誉对学校招生、就业、评优评先等方面有很大影响,随着移动互联网和社交媒体的普及,高校越来越重视学校的社会评价。目前部分高校会利用互联网数据监测学校声誉,通过大数据的手段通过实时监测互联网新媒体上与学校相关的新闻、传播话题和用户反馈,了解学校舆情、声誉及影响力。
应用到的相关技术有:文本挖掘、语义分析(正负面判断)、语义相似度计算、弹性爬虫引擎、分布式全文检索引擎。
我所了解的大数据在智慧校园中的应用还包括教学信息统计分析,通过对课程知识结构进行样本分析,结合教育过程,综合学生学习成绩分布来验证课程讲授过程的合理性和工程教育认证中的达成度来综合分析课程开设的合理性。
又如,学校资产管理信息分析,借助于资产管理信息平台实现对校园基础设施、教学实验设备、校园通信网络设备等数据的采集分析,为学校基础建设方向、教学实验设备的维护、校园网通信设备的升级改造提供数据支持。
“智慧网格学生管理平台”,以高校信息技术和数字化校园建设成果为基础支撑,建设以社区网格、管理网格、教育网格三个维度的网格为载体,面向学生发展的综合管理与服务流程优化的总体框架。对学生培养全生命周期中的生活、学业、思想等发展过程进行主动辅导,形成协同可持续的智慧管理与导引发展新模式,具有学生画像、学生行为预警(在校状况、学业、消费、身心健康)、学生家庭经济状况分析、学生综合数据检索、学生群体分析等功能,能够辅助学工部门、院系管理者和辅导员开展学生安全教育管理、学生心理健康辅导、精准资助等工作,提升工作效率,促进学生管理工作创新与实践。
由于时间关系,今天就交流这么多。谢谢!
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:houlimin
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。