首页 > 大数据 > 正文

中移动孙少陵:电信运营商大数据应用和实践

2012-07-24 15:44:54  来源:CIO时代网

摘要:中国移动通信研究院业务支撑研究所所长孙少陵先生发表了《电信运营商大数据应用和实践》的演讲,他分析了大数据处理技术的发展现状和电信运营商对于大数据的需求......
关键词: 大数据 数据仓库

    2012年7月22日下午,由北京大学信息化与信息管理研究中心、北京大学CIO班教务办公室主办,CIO时代网承办,北达软协办的“首届中国大数据应用论坛”在北京大学北配殿成功举办。来自各企事业单位领导、行业权威专家、信息化负责人等出席了本次论坛,就如何挖掘大数据价值、大数据时代的应用等问题进行了分享和交流。


    中国移动通信研究院业务支撑研究所所长孙少陵先生发表了《电信运营商大数据应用和实践》的演讲,他分析了大数据处理技术的发展现状和电信运营商对于大数据的需求,并以大云计划和移动大数据应用实践为例与大家分享了大数据运用的经验。以下为演讲实录:

 

\

中国移动通信研究院业务支撑研究所所长孙少陵先生
 

    各位领导、各位嘉宾大家好。非常高兴有这个机会跟大家交流大数据基础和应用发展。刚才宁老师的报告从大数据对人类社会带来的各种各样的影响,从非常高的视角去阐述。我本人虽然研究大数据也有几年了,但是我觉得也是非常受启发。我今天谈得话题是局限于电信运营商,我们如何使用大数据,如何在我们生产过程当中提高生产效率。


    主要有几方面跟大家分享:第一,大数据处理技术发展概况;   第二,运营商大数据需求;第三,中国移动在这大数据方面做的事件。


    什么是大数据?刚才王主任、宁老师也都提到了。实际上大数据它的最主要特征就是“大”。我感觉现在整个业界对于大数据都没有一个非常的明晰的认识。维基百科收录着IBM最先提出来的解释,大数据有三个特征:首先是规模大,大家也都认同,比如说YouTube、Facebook,每天在数据处理、数据存储量能远超过历史的数据,所以规模大是其基本特征;第二个特征就是种类繁多。除了传统数据库、数据仓库处理的结构化数据以外,其实很多半结构化,甚至是说非结构化的数据在大数据处理当中都变成非常重要的原材料。尤其是像话音、视频、文本等等,这些原来并不是机器所能识别处理的。而在大数据时代这是基本要求;第三个特征就是处理速度要提高。我们都知道,传统上来说分析型系统某种意义上是一个非实时、后台型的系统,但是现在很多应用它实际上要求联机分析、在线分析,对于实时性要求就会有很大提高。比如说Google、百度,它搜索引擎实际上随着互联网上信息更新速度越来越快,比如说门户网站上的信息几分钟可能就更新一次。那我们要求几分钟之内就要找到相关新闻。做搜索引擎的,要重算一遍计算量会非常大的,像Google、百度会有实时索引的系统,可以通过增量的方式在几秒钟之内就把新的索引上线,这就是大数据处理实时性要求高的典型案例。


    首先看一下,对于大数据量增长的历史背景。我们理解,数据量之所以有很大的增长会有两个方面的驱动,第一个就是数据产生量是不断增加的;现在网络带宽是成数量级的往上提升,同时我们产生数据,从原来的PC,现在到了手机,当然对物联网传感器也是数据产生一个很重要的来源。此外,像Web2.0等等,包括博客、微博等等这样的一些新技术和模式使每个人甚至说每个传感器都变成了数据产生来源,所以说数据增长量是越来越快的。[page]    第二,信息存储时间要求也越来越长。也就是说,信息对于每个企业来说,它慢慢地变成战略资产,很多企业希望数据永远不删除。那么这就对于数据处理和存储能力带来了很高的要求。比如像中国移动,我们有一些数据必须要求长时间保存,有的是因为企业为了做经营分析、决策支持方面的要求,像美国股市等等有审计要求,还有国家提出来的一些要求。总体上来说,数据保存时间要求越来越长,这要求我们存储数据量会不断增大。


    实时性要求方面,传统大规模数据处理是通过数据仓库来实现的。数据仓库发展过程经历了几个阶段,一个阶段它是一个统计系统,从数据仓库里面的数据去发现到底现在已经发生了什么事情,这是一个最基本的基础统计查询功能。第二个阶段就是为什么发生这些事情?这就是一个分析过程。数据动态分析查询,是这么一个过程。第三个阶段,将会发生什么事情?这里就提出了对于数据挖掘的要求。刚才宁主任也对数据挖掘方面做了很多阐述。数据挖掘它能根据我们过去经验导出未来可能会发生什么事情,它是这样一个技术。第四个阶段,需要数据能够快速更新,并且能够快速地了解正在发生什么事情。第五个阶段,要实现我们希望发生什么事情。这个愿望,我们需要通过什么样的举措达成?就是一个事件驱动的概念。


    我觉得这几个发展过程同样适用于大数据大数据在实时性方面的要求,目前应该说这方面要求非常迫切。它的主要实现技术包括几个方面,有一些基于内容的分析。有些公司,像SAP它有一个系统,通过内存实现快速地分析,能够实现秒级结果的呈现。还有一个并行计算的技术,当然这个并行计算还包括图计算、类似于像流计算并行计算的框架,这些都是一些关键技术。还有一个是非结构化数据的管理。国内有一些人在大数据三个“V”基础之上曾经加过一个“V”,就是说大数据价值密度比较低。但我个人不认同这个观点。非结构化数据不是说信息密度低,而是说它有很多信息我们是无法抽取和使用的。这个状况在十几年发展过程当中有了一个很大的变化,我们可以看下,1996年的数据。1996年的时候非结构化数据它的量超过了结构化数据的量。我们可以看到左边的图非结构化数据价值基本接近于零,很少,也是受限于当时的技术手段,当时非结构化数据处理技术并不成熟,所以我们没有办法使用它。2006年,右边的图,这个时候我们的非结构化数据它的价值,这个价值是计算整个全世界市场上,非结构化数据无论从制造、使用以及最终服务,总体的市场价值,它的价值已经是超过了结构化数据。所以说非结构化数据使用对于整个人、机器智能、类信息处理等发展会起到越来越重要的作用。


    非结构化数据处理主要的一些技术包括了低成本、海量数据存储管理。非结构化数据量大,所以我们存储成本要低。再一个就是有一些搜索引擎当中,搜索引擎发展过程当中所发展出来的一些技术,例如自然语音处理。处理文本信息涉及到分词,对于自然语言理解等等。这个对非结构化处理有非常重要的作用。现在对于视频、文本等等的处理技术,发展速度也很快。现在有很多系统,比如说苹果提供的SIRI等等里面都涉及了自然语言方面的技术。这就为非结构化数据的积极处理带来了很大方便。还有一点是大规模并行计算进行非结构化数据处理。这个在产业当中包括在我们中国移动生产过程当中也用到了很多,包括对于视频渲染分布式处理等技术。


    在大数据领域,现在有一个开源系统大家应该比较熟悉,就是Hadoop,它已经变成了大数据领域的事实标准。Hadoop最开始是由Yahoo团队资助建立起来的,目前全球有很多制造商、互联网公司都在贡献自己的代码,也是作为Hadoop的重要用户。它的拓展性特别好,一个集群可以达到四千个节点。再一个是通用性比较强,可以处理各种数据。支持MapReduce的接口。通过MapReduce基本上可以通过各种各样的编程语言实现很多分布式计算处理的工作。再一个就是系统可靠性非常高,数据通过多副本方式实现。同时支持自动负载均衡等功能。此外易于管理。再一个现在的社区也是非常活跃。目前除了有很多公司是在致力于免费的Hadoop的开源开发工作,还有很多公司他们通过改写、重写Hadoop提供商业产品、商业服务。目前Hadoop产业是越来越壮大和成熟了。


    互联网公司以及全球很多制造商、运营商目前都在积极使用Hadoop。包括百度、淘宝等等,都是Hadoop很大的用户。像IBM、英特尔等等也都有Hadoop的解决方案。现在几大运营商都在使用Hadoop做一些大数据的处理工作。


    下面谈一下运营商对于大数据的需求。运营商传统上对于海量数据存储处理依赖于数据库和数据仓库,它发展过程当中面临着拓展不足的问题。比如说省的大公司比如说它的交易系统、分析系统之类的,由于这个问题面临着分库问题,分库之后也带来了很多问题,比如数据资源利用不均、管理复杂等等问题。还有传统数据仓库对于非结构化数据处理能力比较有限。


    运营商在大数据处理应用可以总结出四个模型,比如准实时批处理应用。这一类是批量的输入数据,输出结果不需要立即呈现。这类典型应用包括内容计费、网间结算、话单文件计费等等。这些实际上都是属于这一类的准实时批处理应用。再一类就是非实时的批处理应用,这一类可以允许小时级别的返回结果。典型应用比如ETL数据处理、KPI计算、各种网络和日志清晰、用户行为分析等等。第三类就是在线事务处理,必须要在秒级别内完成,而且交易可靠性要求也是非常之高,典型应用就是各种门户系统以及CRM系统、实时事件告警、积分平台、搜索引擎等都属于这一类。最后一个是在线分析应用,这逻辑要求比ORTP要高,对于数据库更新要求会低一些。这一类的应用主要体现在主题分析、数据多维分析、市场预测等等应用。


    之前也提到了,运营商大数据处理系统跟我们之前提到的大数据总体发展趋势是一样的。都是数据量越来越大,但是实时性要求越来越高,这就给技术实现难度带来了越来越大的挑战。


    下面介绍一下中国移动大数据方面的应用实践。中国移动在大数据处理方面是跟云计算研发工作齐头并进来做的。我们的研发主要是体现在我们自主开发的“大云系统”当中。我们有几个产品线。


    比如分析型PaaS产品,这是大数据处理的一个主要产品。里面包括Hadoop基础平台,这个Hadoop是我们根据自己应用的要求做了一些修改。第二就是基于Hadoop的大数据仓库。第三个是并行数据挖掘工具。第四个是搜索引擎系统。此外还有一个是商业智能系统。[page]    对于这几个系统我就分别做一下介绍。第一个就是BCHadoop。它跟传统的Hadoop相比有几个特点,首先是它的可用性会更高。我们知道Hadoop它的名字节点是单的,当然像一些厂家例如Facebook,分支是做了双名字节点,目前做的也是手动实现主备倒换。而我们可以做到自动的秒内的主备倒换。在多租户等方面也做了一些相关的东西,在Hadoop可管理方面也开发了一些相关的工具和系统。


    第二个就是BC-HugeTable。这个数据仓库的特点容量大支持PB级,再一个成本很低,存储是基于PC本地盘实现的。性能很高。我们支持索引的查询,所以像大部分查询工作都可以在秒级别完成。此外可靠性也是比较高的。同时我们支持一些定制化。现在我们支持了三到四种存储引擎,可以根据应用需求定制一些新的存储引擎和索引类型。在接口支持方面,我们支持传统的数据库,同时也提供MapReduce分布式编程接口。外围工具我们有开发了并行的数据加载、备份恢复等工具。


    数据挖掘这块,我们有一个产品叫做BC-PDM系统。支持45种ETL操作,支持15种主要的主流算法,当然这个主要算法还是基于我们电信应用的。同时支持数据统计、变量分析、海量数据探索等等功能。我们也支持了社交网络分析的算法。可以支持网络特征分析、社团发现、演化、展示等,这个对于运营商精准营销来说是一个非常重要的特点。同时还支持了很多数据接口,比如我们可以跟现在主流交易数据库进行数据交换,还支持一些开源系统。同时我们还支持SaaS和PaaS服务模式。这个系统是可以通过Web的方式,用户通过拖拉拽或者写一些脚本方式实现数据挖掘应用,数据上载到我们集中平台上,做完数据挖掘和分析之后,用户把结果拿回来。这种应用模式避免了用户为了临时的数据挖掘和分析的需求去采购大量基础设施的情况。


    我们还支持丰富的UI,包括图形化的拖拉拽的界面,现在每一个ETL操作和数据挖掘算法,我们都做了图标形式在系统上展现出来,用户把几个图标拖拽在一起定义它们之间的数据关系就可以形成应用,用起来非常方便。同时对于比较专业的用户提供了命令行等方式提供它的应用开发。此外还支持定制化的二次开发。


    搜索引擎这块跟大数据相关的,我们在网页采集、网页分析、自然语言处理这方面做了一些工作。网页采集方面,我们也测试了一下,跟开源的系统相比,我们效率可以提高一个数量级。


    商业智能,为了满足中国移动精分系统集中化建设的要求来实现的一个平台。精分系统,每个省都建了比较大的数据仓库,围绕其建设了很多专门数据提示,这对于基础设施投资以及系统资源利用上都不是一个很好的解决方案。现在我们开发的BI-PaaS,可以实现全网数据集中存储,并且提供一个应用运行环境、应用开发平台。用户的应用可以在本地开发,开发完之后提交到集中平台上执行。对后台数据进行操作,最后就可以得到你想要的分析结果。


    包括了两大部分,一个是开发套间,它是用户下载到本地,可以在本地进行各种应用模拟开发。第二个是BI PaaS Server,是后台一个比较大的分布式系统,集中存储各种各样的数据并且能够托管用户应用,并行执行之后尽可能快速返回结果。


    以上介绍了我们“大云”在大数据处理方面所做的研发工作。后面举几个案例。通过“大云”系统实现的应用。第一个是经营分析系统当中,通过BC-PDM和BC-ETL去代替ETL的工作。传统的ETL,当然有专门的ETL工具,但它不是主流。主流的方式一般都是ELT,把数据抽取以后先加载在数据仓库,在库内进行清晰转换,这是目前应用的一个主要方式。这种方式对于数据仓库容量造成了很大浪费,因为数据仓库价格还是比较贵的。所以我们通过BC-ETL把数据仓库内一些转换和清晰的工作卸载到BC-ETL系统中,可以大大降低投资。因为它是并行化系统,所以在实际应用过程当中就发现了,无论是成本方面还是应用性能方面,都有一个比较大的提升。


    第二个应用场景就是信令监测系统。运营商是经营网络的,在我们的系统当中有非常丰富的数据信息资源。比如说现在我们全网都在做信令监测系统,不光包括传统的电话交换的信令还包括了现在上网的信令等,这些信令当中也蕴含了一些丰富的信息,我们可以用它来进行网络优化。通过信令合成来看端到端,在哪一段我们的网络存在故障或者瓶颈。这个信令监测系统对于实时性要求比较高。比如说处理上亿条信令的挖掘和处理,要求是在一分钟以内去反馈。还有分组域的信令也蕴含着很多用户行为的数据,例如GPS等接口我们可以获取用户上网所有的数据。其实这些数据,我们对于用户行为分析、精准营销方面,是有很大价值的,同时这个量也是非常大的。所以说我们现在采用大数据的技术,在部分省是部署“大云”系统做大数据处理。同时硬件成本上也有降低。比如查询性能可以提高5到7倍。


    以上只是两个例子,其实还有很多例子,比如说详单查询,移动公司运营商以前是邮寄给你,或者你去营业厅打印。未来我们可以在网上给你提供服务,可以查找过去几年的数据,所以它是一个灵活分析系统、在线交易的一个综合功能的解决方案。这也是大数据处理的一个很重要的应用场景。


    以上举了一些案例,今天应该说在座的各位都是各行各业的CIO,做信息化方面的专家,我们也非常希望未来在各个领域信息化处理方面能够跟各位多交流,希望未来能够给各行各业提供更好的服务。我的演讲就到这,谢谢大家!


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:fanwei

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。