2012-05-12 10:12:46 来源:IT专家网
最近,我们已经听到了太多关于“大数据”的东西,有很多新的应用程序,关于Hadoop、NoSQL和各种新的分析软件。我最近花了很多时间与人交谈和思考这些趋势,最终确信我们看到的巨大的变化,包括我们已经收集的数据,以及为个人、公司和社会,我们要如何处理这些数据。
组织应当如何处理数据,如何将原始数据转化成用于作出决定的信息,我们只是处在完整反思的早期阶段。不过,我也相信,“大数据”这个术语可能是混乱大于实用。数据分析的供应商MicroStrategy的首席技术官杰夫·比德尔(Jeff Bedell),告诉我,“大数据”只是一个时髦词语,“整个游戏是引入使人困惑的术语。”
例如,Gartner对大数据的描述不仅在于数据量,还包括其类型,速度和复杂性。分析师马克·拜尔(Mark Beyer)在去年秋天的有关极端信息管理研讨会发言,表示公司需要建立现代化的信息管理系统,该系统要包含合乎逻辑的数据仓库。
相比将“大数据”作为一个事物来谈论,考虑组织如何处理数据的各种变化可能更具现实意义。
当然,某些情况下,也有真正的大量数据。大型强子对撞机每年产生15 PB的数据(15,000 TB级),而即将到来的球面射电望远镜项目预计每天将产生数EB(一百万TB)的数据。但是,这些项目是比较少见的,更多与高性能计算相关,而非典型的商业案例。
相比之下,最典型的组织正在处理的数据库,规模显著较小,但仍然可以测量为TB和PB级。(这仍然是一个大量数据。)这些数据可以来自各种来源:跟踪人们在一个网站或多个网站上做什么,分析社会网络,或由传感器产生的数据处理。
在谈有关数据造成的结果在最近的改变之前,回顾一下到现在为止这个领域的一些大的趋势,可能会有所帮助。
数据库——数据的集合的历史,几乎与数字式计算机一样长,特别地,像IBM的大型机系统上运行的IMS产品。早期的数据库是分层的系统,但模型改变并成为标准仍然是关系模型。这些可追溯至1970年埃德加·F.科德(Edgar F. Codd)一篇题为《大型共享数据银行数据的关系模型》的论文。
今天,每一个大型组织仍在使用的一个或多个这些产品,来存储他们的交易数据,如Oracle数据库,IBM的DB2,微软SQL Server和开源的MySQL(现在仍然是Oracle拥有)。在关系数据库之上,已建成各种应用程序,包括库存,会计,企业资源计划(ERP),客户关系管理(CRM),人力资源应用,以及数以千计的大型组织定制应用程序。
特别是,作为交易的数量已变得更为复杂,往往分布在多个机器,许多企业已经实施联机事务处理系统(OLTP,也称为面向交易的处理系统)。
在过去几十年,一个大的变化,是商业智能平台和数据仓库的出现,通常但并不总是一起运行。
数据仓库通常存储来自业务系统的数据副本,但这些系统本身并不使用于不间断的业务经营。相反,它们被用于保持数据的历史,整合多个系统,往往作为分析应用的一个起点。Teradata公司的数据仓库产品可能是最有名的,但近年来,甲骨文的Exadata产品线(并购SUN所得),和IBM公司(包括其收购Netezza公司的资产)已经获得更多的重视,以及纯软件厂商,如Greenplum(现在是EMC的一部分)。
有许多不同种类的业务分析应用,但可能是最常见的是经常被称为联机分析处理系统,或OLAP。数据在一个多维数据 “魔方”中配置,“魔方”中关系数据库(或一系列的数据库或数据仓库)中的数据汇聚和连接,然后进行分析。通常情况下,你会看到商业智能平台作为“语义层”, 运行在数据仓库“魔方”之上。
最知名的商务智能平台是Business Objects(由SAP拥有),COGNOS(IBM所拥有),Hyperion(由Oracle拥有),微软,MicroStrategy,和SAS。
比德尔介绍,这样的观点来自90年代的 “非常大的数据库”和数据仓库,在那里你有一个单独的数据库的报告,而不是一个交易中使用。
通常情况下,这样的报告数据库将捕获汇总的数据,而不是每一笔交易的数据,通过分析数据,你可以有更深入的了解,在您的业务将发生什么。
这种商业智能建立了一个非常大的市场,它的背后BI的最伟大的例子,如Moneyball所描述的一样。
这样的系统通常是由专业人员执行,需要一个合理的配置,但这种情况正在改变。最近让我印象特别深刻的是,一些分析工具让典型的业务分析师(而非程序员)在企业数据上做快速报告和分析。提供这些工具的厂商包括的Tableau软件,QlikTech的QlikView,TIBCO Spotfire,所有这些都允许来自多个源的数据的快速可视化。
随着Web和基于传感器的应用的发展,已收集到的数据量快速扩展,超过传统的数据库的允许,导致了新的方式,通常被称为“NoSQL”,和基于如Apache Hadoop这样的工具。我会在以后的文章更多地谈论这些,但似乎像每一个企业的供应商,包括一些规模较小的公司,目前都基于Hadoop的解决方案工作,重要的是还有开源运动。
此外,有一个通常被称为“非结构化数据”的内容或信息被日益重视,包括一切从网页、文本、媒体文件,它们可能不适合传统的数据库。针对这些内容,存在一个新的工具集,涵盖传统企业文件内容管理系统,像现在EMC的Documentum,IBM的FileNet,Oracle的Stellent,OpenText,和Microsoft SharePoint和新的非结构化搜索服务提供商如Autonomy(现在是惠普的一部分)和Endeca(现在属于甲骨文)等。
总之,有很多不同的数据需求,并且许多大型组织将以多重解决方案或多家供应商告终。
在接下来的几篇文章,我要谈论这些领域,但很显然,这些都是不同的市场,针对不同的客户,采用不同的工具——并不存在一些全新的“大数据”市场。然而,我同样清楚,组织将不得不重新考虑他们如何收集,存储,分析和管理数据,以及他们如何将这些数据变成真实的信息的计划。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。