数据量的增长变成一个突发事件是最近两年的事情。基于互联网的应用产生的社会性变革,使得一系列数据开始从客户端产生,而不是从企业里产生。数据量的增长速度有了新的级数上的增加。在这个基础上,70%-85%的数据是“多种数据格式的复合体”。未来数据的管理模型跟今天会有很大的差别。另外,87%的数据库性能问题都与数据量的增长相关。这是基于Oracle的一次数据调研。Gartner发现数据量直接影响的是现有处理模式的性能。所以,现在数据量的高速增长,如果按照原来的管理模式,把数据都放在一起保存,未来会遇到更多的挑战。因为现有数据库结构和数据管理的模型,已经不能满足基于
大数据的数据规模。
如果一些企业提前采用
大数据技术,能在竞争中取得一些先机。Gartner对未来五年的预测,其中有一条引起了轰动。到2015年,85%的世界五百强企业如果不采取
大数据的策略将失去竞争力。所以
大数据的竞争是非常关键的时机,也是非常残酷的事情。现在大家的确需要有足够先进有力的应对措施。
一、“大数据”是什么?大数据带来的问题是什么?
“
大数据”指的不仅仅是数据量,而是会带来一系列新的挑战。Bigdata的概念首先是由Gartner一位叫道戈拉里的分析师提出的。他提出Bigdata面临三个V的挑战:数据量(Volume)、数据多样性(Variety)、高速(Velocity)。
在这个前提下,Gartner去年发布了Bigdata的12个模型。最关注的是最下面的区间,即有关Bigdata最开始产生的几个量化指标:数据量、数据种类和处理速度。一般企业所面对的数据管理管理的是数据库、结构化数据,以及所能预先安装好的管理软件所带来的数据。
大数据管理的往往是我们无法管理的数据,比如来自企业外部,微博、社交网站和多媒体等各种载体。
数据多样性将是
大数据的一个重点。它意味着未来数据的产生本身就是一个很大的区别。高速,与CIO关注的系统性能不是等同的关系。这里的高速指的是从数据产生到最终针对数据产生决策的速度,里面包括了存储的过程、计算的过程、整个模型和以什么方式提交出最后的结果。所以,不仅是计算能力和存储性能的问题,更多是在数据管理方面如何保护它的处理速度。在
大数据问题中,速度往往是性命攸关的。比如对于灾难的预测,当灾难发生时,要很快对灾难发生的程度、影响的区域范围、对长远的影响等都需要量化出来。这是
大数据很典型的应用,如果短时间内没有计算出来,那么数据就没用了。
大量、多样性和高速必然带来复杂性的问题。到现在为止很难找到一个很好的解决方案,能够应对所有的数据格式问题。虽然现在有很多不同行业开始采用标准化手段来回避这个问题,但仍然是很严峻的问题。
现在在医疗界有一个数据标准Dicom,即医疗数据的影像传输协定。当初只是针对制药,不过现在医疗行业包括医院都在采用这个数据格式,这是很好的趋势。通过一个中立机构,制定数据格式的标准,由它来解决一部分数据复杂性的问题。但如果放到更大范围,面向所有企业的话,数据格式还不存在。虽然现在有SML这种相对来说适用范围更广的格式,但在具体的定义以及应用方面还有很多挑战。
极限的信息管理:12个象限
“
大数据”将对信息管理的各个方面的需求推向极限。访问权限管理和控制,包括数据敏感性分级(Classification)、共享协议(Contracts)、热点数据(Pervasiveness)、技术实现(Technologies)。这个层级是用户很少提到的,有了如此大的数据量,未来会是很严重的问题。数据敏感性分级,把所有数据放在一起是数据管理的灾难,数据管理的前提是所有数据产生的价值是不同的,不同时期产生的价值也是不一样的,必须要定义哪些是有价值的,哪些没有价值,还要定义价值的时间区限。共享协议,数据提交的方式是怎样的,如何提交,提交的格式是怎样的,这些都需要通过合同以法律形式确定下来。热点数据,
大数据时代热点数据在不断变化。热点的程度和时间未来对访问权限和控制很重要。技术实现,能够管理
大数据的技术手段有哪些。
质量管理包括保真度(Fidelity)、数据的相关性(Linking)、数据的有效性(Validation)、数据的有效期限(Perishability)。在访问权限之上是质量管理,这是原来数据仓库中的重要概念。数据拿进来之后保真度怎样,每个数据都有上下文的关系,这些上下文关系会不会影响在下一个场景中使用。数据的相关性,不同来源的数据组合的模型产生的结果不能将其中一部分拿出来断章取义。数据的有效性,从时间和应用场景的角度对这些数据进行管理,这是更高的层面。这四个象限都非常重要,现在大家关注更多的数据量的问题。
大数据产生对数据中心架构设计的新需求
现有基于关系型架构设计出来的数据中心很难满足未来的要求。
大数据如果能充分利用将有非常好的商机。比如商业预测,08年的经济危机人们都归咎于监管不够和对数据模型的设计出现了严重问题。如果设计出一个更加完善的数据模型,是否能预测出产生的危机,并对后果更加量化,帮助人们进行更好的决策呢?
大数据不仅对企业,对一个国家,甚至全球的稳定都是十分重要的。
还有很多新类型的应用,比如期货、股票。如果能比竞争对手早一点点预测到市场趋势,都会有非常重要的商业价值。从挑战和机遇来看,会产生对基于
大数据架构的一种新的需求。
大数据的复杂模型不是在原有系统上扩容,增加一些新应用就能实现的。比如,用数据中心逐渐扩容的方式来迎合这种需求很难做到的。无论是数据库、存储、数据计算能力,现在流行的数据中心的技术很难满足
大数据的需求。需要考虑对整个IT架构进行革命性的变化。[page]
二、解决“大数据”问题的关键技术有哪些?
从数据中心的角度来说,最重要的还是容量、高速、数据多样性、复杂性。高速方面关注两个重点:计算能力和数据传输的能力,提高IOPS和MB/s计算性能,数据传输速度。容量方面关注大容量、高可扩展存储、数据保护。数据类型上能看到不同RAID的保护级别,以及分级存储的一系列技术,能把数据根据重要性能动态自动化地分布在不同的存储级别上,实现对不同类型数据的存储。对数据格式和复杂性也有多用户租用的技术和安全管理技术。
未来要考虑的
大数据技术的重点是,从存储来说,从容量、性能到服务是逐步提升的。从一般存储的阵列来看有很高的性能,但是未来如果扩张容量并不能带来性能的提升。所以用户在考虑向外扩展的架构,来更好的适应
大数据的需求。
另外,IT部门需要考虑将数据处理,管理和分析与存储技术集成,如压缩、去重和归档。这些技术已经存在,对于
大数据量能很明显的降低存储成本。而且,不单单是降低成本,数据量大到一定程度,如果没有数据缩减技术,存储本身就是不可能的事情。未来压缩、去重和归档技术将成为IT基础架构中不可或缺的组成部分。未来的磁盘专列、容灾数据、备份数据对去重、压缩和归档都是必须要做的,否则不能应对
大数据的问题。
现在非常热门的Hadoop架构对很多企业来说非常新颖、简单,又是革命性的技术。如果基于Hadoop做分布式计算,那么企业搭建的昂贵的计算和存储设备可能都不太需要,这会产生一系列的结果,不是未来的Oracle数据库所能设想到的。
存储角度看“
大数据”
从存储角度来看
大数据有几个技术难点:以服务为中心的容量管理、复杂的容量预测、新的数据保护手段。
大数据不再是以PB级别容量进行管理,对数据高可靠性的需求、安全性的需求以及性能的需求需要进行定义。另外对于容量的预测,很多企业无法预测自己的数据量未来会如何增长。IT更多还是支撑部门,如果业务部门提出某个需求,对支撑部门来说是突发的需求。在没有任何预知能力的情况下,如何应对突发需求,很多IT经理很难做到。
传统备份的方式很难应对
大数据的问题。这里提到了几个重点的技术:Scale-outNAS、对象存储、SSD、云存储。向外扩展的NAS将是新的技术增长点。SSD也跟
大数据有直接关系,很多应用中用户购买磁盘专列是出于性能的考虑,SSD可以以有限的代价非常显著地提升整个系统的性能。用好SSD有很多做法,比如放到磁盘专列上或者服务器上,都有很多解决方案。对于云存储来说,企业上的应用其实才刚刚开始,怎么把
大数据的问题转接给云服务提供商,而不是自己去考虑这些问题,这些都是可以考虑的角度。
“
大数据”的备份-无法备份?
“
大数据”的容量在很多情况下决定了普通的备份方式无法运行。实际上,有些
大数据不需要备份。
大数据有很大比例是原始数据,未经筛选的数据格式。在将数据处理完拿到结果后,本身就没有太大价值。用户可以考虑的备份策略:快照(snapshot)和复制,特别的文件系统可以集成磁带层级。
目前的数据管理技术落后于
大数据的发展
现在的管理策略、法规更多是针对结构化数据。未来
大数据会对管理策略产生一系列挑战。Gartner也看到一系列
大数据管理的问题,比如安全、隐私、法规、保存归档等等。
“
大数据”遇到“云”
云是不是可以解决
大数据最好的答案?云在很大程度上可以解决
大数据的问题,比如可扩展性,可灵活伸缩的性能和容量。但也有一定限制,比如带宽和传输速度。现在可以看到很多新的解决方案,比如云存储的网关设备,可以和亚马逊等云服务提供商的服务进行集成,帮企业搭建混合云的环境。
同时,云本身也在使用大数据的技术。比如AmazonElasticMapReduce(EC2和S3)都是基于Hadoop和MapReduce的架构来搭建。在云存储上,有很多大数据的体验,也能帮用户解决很多
大数据的问题。
三、从何下手-大数据策略的成熟性
目前“
大数据”的应用还只限于少量Web的先驱者,比如Google、Yahoo、Amazon。阿里巴巴和淘宝也利用
大数据技术在搭建自己的IT架构。高性能计算和新兴的数据分析应用也是大数据重要的用户。
对于大数据能否满足主流企业的需求,这点业界尚有争议。比如它的性能、稳定性、数据保护、管理、开源、分析工具、费用控制等问题。还有谁来控制这部分的预算,系统,软件还是服务?再次,还有人才短缺的问题。
我给CIO们提出四点建议:第一,迅速接受“
大数据”的概念-未来的新利润增长点和竞争点。第二,认识到“
大数据”不是在现有架构上新增应用,而是彻底改变现有架构。第三,建立企业信息管理策略-硬件,软件,服务,以及数据抓取,存储和分析的策略。第四,实施“
大数据”前确定每一步的投资规模,设立里程碑和阶段目标。
IT经理们近期和远期的一个时间表可以做这些:
明天早晨:内部调查一下有没有人有兴趣正要试验一下
大数据的项目?确定一组人员进行计划和技术准备。
未来三个月:清点数据资产,你拥有什么数据,哪些数据经过分析处理可能产生新的商业价值?调研IT架构的新技术,有没有技术能够支撑新的数据分析处理需求?
未来12个月:确定初期的
大数据项目并确定资金来源,实施一个实验性项目,作为培训和未来人员调配的基础。
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:fanwei
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。