2016年8月13日,由北大信息化与信息管理研究中心、中国新一代IT产业推进联盟主办,CIO时代网、阿拉善盟旅游局、阿拉善盟文旅投公司承办,北达软、网加时代网、转型家、《金融电子化》协办的“第二届中国行业互联网大会暨CIO班十一周年年会&首届阿拉善峰会”在苍天圣地阿拉善成功举办。与此同时,互联网+公共服务分论坛在阿拉善隆重举行。
中国新一代IT产业推进联盟云计算与大数据分委会秘书长黄鹏在互联网+公共服务分论坛发表了题为《云计算大数据集成》的主题分享。以下为演讲实录:
我今天分享的议题是目前比较两个火的技术,一个是云计算,一个是大数据。这么多年我都是在搞技术层面的,主要是分享一下云计算和大数据这两个东西到底有没有结合点或者很好的集成起来。我从三个方面阐述这个话题,第一,什么是云上的大数据?第二,为什么要在云上去部署大数据?第三,云上如果实施一个大数据的话,它的大概的策略会是什么样子的。
云计算概述和特点
先简单介绍一些概念的事情,一个是云计算,还有一个是和它对应的,就是虚拟化,也就是虚拟定义网络。两个到底有什么区别?其实定义上还是有些模糊。但是在我的理解上来讲,云计算是个池化的概念,就是把所有的资源聚集到一块放到一个池子里面这就是合。而虚拟化是分,如果大家原来上过一些虚拟化的系统就会知道,我们把一个资源分成若干个资源提供给用户使用。还有云计算是基于互联网孵化的模式,完全改变了所谓的使用方式和交互的模式。而虚拟化刚刚说过了,它就是把一台所谓的计算机虚拟成多个逻辑的计算单元。
云计算会有一些特点,第一个特点是按需付费。我们如果用过阿里云就知道,想用的时候就租,不想用的时候就销毁。第二个特点是能够形成服务化,能够通过API的模式去做一些调用。第三个特点是开放,我们能够很开放的使用它。第四个特点是高并发,因为我们有大量的用户去用。第五个特点是云计算的很重要的特点,弹性。我们不需要关心一个物理资源的上限在哪里。这个是很重要的特性。第六个特点,互联互通性。云计算可以部署到一个地方,所有系统本身来讲都可以做到互联互通,只不过针对各个运营商会做一些限制,让它不互通。
大数据概述和特点
大数据,现在也比较火。“四个V”价值,最终是体现大数据的价值。大数据里面会有一些问题,第一个是共享的障碍。为什么会有大数据?因为我们原来共享很复杂,有大量的信息化的孤岛。第二是安全性问题。大数据,数据就是安全,如果说不安全了,这个数据就会很麻烦。第三个问题,其实大数据是一个探索,如果对已知的一个事物或者已知的数据做一些传统的数据分析,其实本身来讲跟大数据没有太多关系,只不过说原来因为量大了我们处理不了,现在通过新兴IT技术可以做处理。但是更大的大数据的价值在于对未知事物的探索,这就需要大规模的计算能力。
从技术层面上讲,大数据的由来,就是企业、政府运行这么多年,积累了大量的历史数据。很多时候我们去进行交流,就说政府也好、企业也好,告诉你我有十几个TB的数据,但是你一问基本就是十年就10TB的数据。第二是非结构化的数据越来越多。其实非结构化数据才是真正的大数据的value。我们设想,原来建一些业务系统,更多的是一些结构化的数据,一些表格的数据。但是现在随着智慧城市、智能化,我们有大量的图片,医疗里面有大量的影像,智能交通里面有大量的视频数据,包括产生的一些GPS的数据,这些数据的量是大的非常惊人的。还有一点,我们对于数据处理的时效性要求越来越高,实时性对于我们来讲变的非常重要。所以说在这么多的环节下面我们会发现现在的IT系统是不堪重负的,因此我们要引入一些新的IT手段,一些大数据的技术,去解决这种历史数据的分析、查询,非结构化数据的分析查询,包括更快的处理实时数据,包括流式数据。所以在大数据领域来讲,如果不能充分的形成大数据的处理能力,那么你将会在这一部分的竞争中处于非常被动和劣势。
大数据处理的特性
大数据的处理其实也会有自己的特性,就和云计算一样。它的特性最大就是数据量大、多样性,有非常大量的数据有非常多元化的数据。第二正是因为量大和多元性所以计算量是非常大的。再者,大数据、大数据,我刚才说了,是为了共享而存在的。未来我们是要做开放的。做开放,这些数据一定要满足多租户的需求,因为每一个业务系统或者每一个分析处理的方式对于底层的技术资源,包括物理资源、计算资源其实都不是确定的,都是不一样的,所以怎么样能够更高效的隔离这些计算资源形成多租户,是大数据处理的一个很关键的特点。第五个是组件多。其实原来还好,原来最开始的时候,比如说有大家耳熟能详的,做大数据处理有Hadoop。然后慢慢发展有了Spark,到了今天随着实时数据和非结构化数据发展,整个Hadoop体系圈里面大概有将近200多个技术,每个技术可以符合某一个特定的业务场景非常合适,所以这里面的组件多就会造成运维和运营的复杂度大幅的增加。第六,我们也是希望大数据处理能力能够形成服务化的,未来以API的方式去开放给更多的人。
大数据平台
针对大数据平台的建设,目前来讲它主要是有四块:一是重平台轻应用。我们经常说大数据的应用很难落地,但是我们要去响应国家号召去做,所以我们要建大量的大数据平台。二是重复建设,形成新的大数据的孤岛。内部会形成数据孤岛,业务系统会不断的去重复的建设,但是在大数据时代,很不幸的是我们又形成了大数据的孤岛。这是什么概念呢?比如说我们去一个市里面或者一个省里面,大数据的平台,尤其是基础平台这块是被重复建设的,比如说一个财政局会建设一套去用于自己财政业务的分析,一个医院会自己建设一套用于自己医院的分析等等这些诉求最终变成了重复的。这种重复跟现在云计算的建设是相违背的。我们说云计算建设,政府要倡导政务云要统一建设,它的开放、共享性会很差。怎么讲呢?最终建这么一个平台,我要去做数据。最终是为了开放的。所谓的建设数据开放城市,这个时候如果说你的开放性、共享性很差的话,其实你是很难做到的。第四,目前所有大数据的平台基本上都是基于物理服务器部署,所以服务能力会很差。经常会有一些用户去反馈说,既然已经上云了,这个时候大数据的处理能不能够基于云做一些,这样子的话就降低整个服务器采购成本,再一个就是说预算也是有限的,我现在有10个TB的数据,当时批的是30台服务器,当有一天到了20TB的数据,而且这个会增加的很快,但是采购服务器的速度不会有这么快,那么我就没有办法处理这些数据。
大数据云化
大数据的云化,最早是属于AWS提出的,他为什么要去做这么一件事情呢?摆在他面前一个很重要的问题就是到底要在自己的IaaS上部署什么样的服务。这些服务如果只是为了用户提供非传统的,比如说VM虚拟机、网络、带宽,这个其实对于真的大企业级用户没有太多意义的,所以他就会在这上面尝试提供一些大数据的东西,比如说很经典的弹性的大数据处理,包括大数据组件都会部署在上面。这种模式其实被学到了阿里上,阿里原来是有一个,在国内阿里是最早提出“我们已经进入了BT时代”,但他现在不提BT,他提BT有时候在我们看来是给整个行业下了个套,所以他现在慢慢的转,转到数家的东西,主要是在他的公有云上提供一整套的基于大数据的处理分析的能力,这些处理的能力包含应用的能力,应用能力包括推荐引擎,我们能够以API服务化的方式开放出来,第二块是说,尤其是像政府领导特别喜欢可视化,我们做了很炫的可视化给领导演示就很炫,所以在可视化方面做了大量的工作,通过可视化方式、通过政府的数据治理。第三块是比较火的,就是人工智能。第四是基础服务,就是我们能够提供大量的大数据的一些基础服务。
如果要简单一点定义大数据云化,就是把大数据的组件通过服务化的模式在云上快速的部署,最终以更加灵活的方式服务用户,或者说提供对外的服务,这就是大数据云化的最基础的概念。
大数据最终未来是要形成所谓的服务化体系的,服务化体系有几点,第一点从开发的角度来讲大数据组件非常多,所以每个组件和每个组件的模块是高度吻合的,很多关键组件是重叠的,大数据本身来讲如果形成服务化,是要做微服务化。第二点是建设的成本,拥有大数据技术其实是一个很难过的事情。尤其是对于很多中小型的企业或者开发者来讲它是不经济的。而且大数据技术很复杂,分为很多层,从数据集成再到数据仓库的建设最后到数据分析、可视化等一系列下来,往往一个大数据项目的周期会拖的非常长。而且这种良好的架构又需要长时间的经验积累。
大数据服务
第三也是最重要的,大数据技术演变非常迅速。从我2012年开始接触大数据的Hadoop开始,到现在不到四年时间,整个围绕Hadoop体系的开源技术体系就都多达200多个组件,所以这个时候你会发现,我们根本就不知道要什么,我们只是围绕着原有的模式去走,但是很多时候这种模式已经变的越来越复杂。我在PPT里面没有画一个很大数据处理的标准的流程图,我们会发现里面你要完成正儿巴经的从实时数据再到非结构化数据再到结构化数据再到传统数据、视频、音频各种的数据,从集成到处理、分析,里面所用到的组件不会低于20种。这是说技术层面也没有很快。然后还有一个很大的痛点是什么,大数据真正参与者会很多。为什么这么说?我们会发现,整个数据的拥有者和整个数据的分析师团队、架构师团队、实施团队,包括最后要拿这个数据要做应用开发的,完全是几波人。数据在政府手上,在电信运营商手上,在各种资源部门手上,但是我拿不到。然后拿不到原因是什么呢,你有时候会去找他拿,他会告诉你涉密、隐私,他会找出各种理由。但是很多数据往往会在线下被不断的变卖。所以大数据的参与者会很多。我们要通过一些办法和手段来解决这些问题。那么云的模式恰恰让我们有可能带来一些新的契机。我们希望通过云的模式提供一个标准的大数据技术方式、集成平台,然后减少重复的劳动,从而提高效率。
大数据云化的优点、难点
大数据云化有一些优点,第一就是多租户。参与者很多,刚才说了。第二点,每一个分析者对资源利用率都是不一样的,包括所用到的时间也都不一样。比如说我现在做一个分析,白天是闲时我很少做分析,但是有的时候是晚上是闲时,这个时候对于整个底层基础建设来讲所调度的资源是不一样的。第二是灵活。我们能够通过云化的模式让整个大数据的体系变的更加灵活。第三是即开即用。第四是我们能够通过云计算为大数据提供更加强大的或者更加优越的计算性能。云计算很大程度是重在计算,如果简单的只是说把一些Web应用去拨到所谓的云计算上,这个云计算对我们没有太多意义。再者可以通过云计算模式简化运维。我们知道大数据的体系做运维是非常复杂的,包括安装、监控,是非常复杂的。第六,我们能够降低成本。这不光是硬件的成本、技术的成本、运营的成本、运维的成本,等等。
说了这么多好处,大数据云化为什么在现在来讲我们经常会听到一些集成商要帮我们做大数据了,我们有的比较先进点的公司就会好奇,我已经上了一套云平台了,能不能放到我的云上。这个集成商就会告诉你,这是不靠谱的事情。至于为什么不靠谱?它会有几个难点,第一个就是性能问题。就是说我们从磁盘、从网络,因为大数据有自己的体系架构,如果没有和云的体系架构有一个很好的衔接的话,这种磁盘和网络的损耗是非常大的。第二是可靠性问题。我们知道大数据整个的技术架构会有自己的调度体系,这个体系如果不和云的调度体系有个很好的衔接的话,它是不知道怎么调度。大数据有个好处是副本机制,这个时候副本机制就失效了在云里面,所有的副本都在一台物理机上,但是在角度的时候,在对于框架调度的时候,它会认为这是两台机器。第三是技术问题,就是我们要实施这个东西技术的要求会非常高的。不是那么简单的事情。
大数据云化的策略
我简单说一下,第一点,从快速运维、快速部署的状况来说,如果说要做大数据云化的事情,首先第一点我们需要在构建一个大数据级别的应用商店,能够以这个部署大数据组件包括未来有可能形成的大数据的应用。也包括现在比较火的PaaS的概念,我们能够一键部署。第二点,要有很好的监控。对于大数据的组件要有非常明确的监控,比如说宕没宕掉,CPU、内存、网络、存储大概的使用情况,我们都要实时的知道。第三点,要以服务化的模式去构建大数据云化的平台,包括平台所谓的服务化,运维的服务化,计算的服务化,应用的服务化,算法的服务化以及存储的服务化。
最后一个策略就是跟现在大家所要去想要打造的开放平台是很类似的。基于DCOS数据操作系统之上构建的一个大数据云化的平台,它底层是基于IBM自己收的一家云计算的公司去提供所谓的叫做基础设施。在基础设施之上会有自己的运营,包括流程。但是最核心的是数据中心那一层。在这个操作系统之上会形成自己的服务能力,比如说安全的网关服务、大数据平台,基础的大数据服务,比如说Hadoop、Spark等等做数据分析的,还有就是数据分析平台,再者就是认知计算,再就是图像处理,医学里比较常用的基因计算。最后这些服务能力都会以一个所谓的IBM的一个形式提供快速的基于APP的,当然正益无线会比较熟悉,这个东西会基于下沉的数据的服务去构建上层的应用,这个应用最后会以API的方式提供出来。我们的建设者只需要建设一些非常典型的应用,剩下的应用可以开放给整个生态的一些合作方,最后他们能够以很好的方式去使用这么一个云化的大数据平台。
第一点就是大数据云化确实是未来的趋势,这是毫无疑问的。不管从应用的需求来讲还是从云化的需求来讲,还是云计算建设的需求来讲,都是一个趋势。第二,如果真的要去构建一个非常对外开放的大数据的体系能力的话,尤其是对于政府来讲,构建一个非常灵活的多变的大数据的PaaS平台,也是非常重要的事情。今天差不多就讲这么多,谢谢大家!
第三十五届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:黄鹏
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。