【干货分享】中科院周园春:科学大数据

2016-05-11 11:56:20  来源:CIO时代网

摘要:2016年5月6日,“2016北大CIO中国行--武汉站”活动在武汉华中科技大学隆重举行。中科院网络中心科学大数据中心常务副主任周园春分享了题为《科学大数据》的主题演讲。
关键词: CIO 大数据
2. 科学数据标准规范体系

 
  其实在这个过程中,因为每个学科是不一样的,而且它自己相关的采集的方式也不一样,所以如何实现集成管理,标准规范是最关键的。这个标准规范包括有指导型,有强制型的,我们通过配套软件固化到一个软件里面,实现对数据的质量的控制和数据相应的发布和管理。这里面也是列出了我们跟标准规范的相应对应情况,有一些是形成了国家的标准。这是在整个分布式资源的管理发布体系,后面讲到大数据的探索。第一个实际上这个问题很明显摆在这里,比如说深圳8个月的GPS数据,是960亿条记录,如果是北京或者上海更大,如果延伸长周期2年,3年,或者是5年,如果在560亿记录里面找到某一个时间段,某一个出租车的运行轨迹,这是一个很大问题。还有一个核心问题,除了量大问题,本身这个数据有可能,原来在前年可能采集三个属性,今年多拿一个属性,明年多一个属性,如何能实现对这些属性剩余调整,我们现在提出了自己的解决方案,而且做了优化和完善,在961条出租车数据里面,右边图可以看到,可以训练时间段,选择出租车的编号,1到2秒内能够把出租车运行轨迹通过可视化的方式展示出来,如何从海量数据里面找到你所需要的这个数据。
 
  这个数据有各种各样的,这个数据是相互关联。我这个物种为鸟,鸟还有它的测序,还有鸟的文章,这些信息是详关联,如何能找到所有鸟信息整合,这就是如何管理和发现,然后提出了这样一套方案,这套方案我们现在目前对它的关联关系一个快速管理,快速自动化关联建立,然后提供了16个数据服务接口,因为这一块的关联发现,必须要基于某个领域的需求,它很难说我建立一套关联适应所有的,它带有本体的概念,有领域的背景知识,切入之后实现了这样一套系统。我就研究鸟,我就通过调用你的来获取跟鸟相关的所有信息,形成一个系统,这是说我们微生物在整个关联发现里面从哪几个关键可以看出来相应的,相互的关系。如果一搜这个,就跟这个相关的文献也好,数据也好,都能显示在这里面体现。
 
  另外这是一个我们在整个找到它多源异构相关所有数据。第一个是快速找到,第二个是找到相关的多源异构,找到了可能还远远不够,大数据是预测,所以找到之后能不能找到它背后的规律,这个是很关键的问题。如果能找到给你也没有什么用,价值在哪里,所以价值就是后面要实现这些数据的分析和挖掘,提出一个预测的价值。
 
  在微生物所的应用
 
  我们当时的课题是,背景是一个要预测某个三甲医院,7到10天内就诊病人的情况,这个时候其实也是从谷歌的那篇文章,谷歌预测流感是通过搜索,这边我们是以微博,微信的数据,加上它爆发实际的数据,加上交通的数据做这样一个分析。做这样分析之后,我们可以看出来这是交通的数据,这是微信社交网络,这是医院数据,这三个数据建模之后可以看到说,通过微博的数据,整个趋势差不多,微博数据比交通数据提前2到3天,交通数据会比医院提前2到3天,因为这个很好理解,如果是一个社区医院,服务的对象就是附近居民,但是北京三院是面向全国,武汉或者江西的病人,在微信、微博上有一个表达,这个表达有可能是表情,也可能是一段话,但是过几天还不舒服,可能就坐交通工具到北京去了,所以它本身有一个从常识来说有一个时间延续的过程,但是原来没有微信,微博,没有这个数据没法分析,由于社交网络发展导致有这个可能去做这个预测,这是我们最终做的一个预测,大概准确率70%多。
 
  第二个实际上我们做的这个病是狂犬病,狂犬病的传播,除了病本身,还有跟你的温度,跟你的经济条件,这个地方不通交通,它的公路就刚通,人员流动很少,这样给他疾病传播带来很大影响,所以你考虑疾病传播不仅要考虑病本身传播的特征,更关键是要跟其他的属性,比如说环境,社会经济发展和交通因素做综合分析,然后给出它一个风险的图。它大概一天,两天,三天之后会是怎样预测的结果,等等,所以这是我们风险预测的一个相应的数据。所以我说大概举两个例子,基于这个数据寻找规律的两个例子。最后这个展示给用户,所以可视化很关键。可视化我们有这样一个平台,这个平台通过简单配置可以实现数据可视化,可以看出来有时候是动态的,比如说H7N9,整个疾病的传播过程,能够显示的展示出来,同一个平台展示不同的应用,它的效果完全是不同平台来做的。同时这个也通过三维的方式展示它整个的一个大数据分析和预测的结果,我们可以看出来这个是可交互的,就是用户在这里面进行点击之后,这个根据用户的旋转和交互发生变化,这个是我们在大数据分析完了之后对它的结果,或者是对它分析过程的一个可视化的过程。最终把很多技术联合在一起,面对科研领域。比如说遥感领域,我们是达到PB级的数据,超过350TB遥感数据,支持遥感计算模型在线分析,提供2维、3维的展示。
 
  3. 大数据技术--大数据可视化技术
 
  在大数据里面的探索,找到数据背后的规律,以及怎么把规律进行可视化和分析。这一块就是刚才提到的,就是数据共享。实际上现在数据共享还在,不开放的数据占开放数据的85%以上,实际上开放数据很少,开放数据很少,很多的问题,机制有各种问题。在概念上,我们在十二五做了很多探索。第一个探索原来在科学院是项目,现在是通过后评估,你先做,做完了之后我第二年评估你第一年的数据服务的效果,这是一种方式。但是在科研领域有一个很大的问题,即使这么做,科研人员不一定贡献数据,因科研关系到它的职称,文章的发表,就是像论文一样,原始创新成果,我们希望有一个期刊,让它数据发表,使它有一个论文引用能够作为他职称评定核心的价值和核心要素之一,对它数据共享也是很大的支撑之一,也是发表相应文章。我们做了一个期刊,现在有这么多的期刊发表的论文,其实这些论文基于数据发表,这些数据怎么办,这些期刊数据存在哪里,所以我们做了一个平台,希望把现在期刊关联数据放在这个地方,未来大家可以为这个数据做研究,我可以看你论文之后拿到这个数据能不能回应你的研究成果。
 
  4. 数据共享新模式探索
 
  有这么多用户,这个用户在科研领域有很多的需求就是说,科学家希望处理这个数据,这个数据实际上没有太大的科研创新量,但是它必须要把这个加工成一个一级产品,基于这个产品再分析,前面的工作是必须做的,时间长了学生也不愿做,有这样平台,有数据,有学生,所以科研人员通过这个平台发布需求,就是我要提交的这个产品,然后这个平台里面有11万看到之后有人定标,这样实现需求供求关系共生,提升积极性。这也是猪八戒网最开放的,所以这个时候我是说,我们可能在整个的数据共享里面做了一些,在技术上或者平台上做了一些探索,因为机制,政策,法规可能是需要,但是关于这个可能还需要一些其他的东西来做一些让大家自愿去共享数据。
 
  这是我今天分享的内容,谢谢大家。

第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。