首页 > 大数据 > 正文

数据仓库 如何筑起信息管理大厦

2009-08-17 08:58:01  来源:计算机世界报

摘要:两年前,当IBM等老牌数据库厂商提出将数据转化为有价值的信息并为企业随取随用时,国内很多用户都表达了疑问和顾虑,从数据库到数据仓库再到商业智能及数据分析的三层信息管理架构
关键词: 数据仓库 信息管理

 2009年7月28日,IBM和SPSS共同宣布决定签署协议,IBM将以每股50美元的价格、总额约为12亿美元收购专注于预测分析和数据挖掘的商业智能公司SPSS。这不禁让人们联想起那场发生在2007年、至今仍被人津津乐道的商业智能收购大战—2007年 4月,甲骨文以 33亿美元收购了海波龙; 10月,SAP宣布以48 亿欧元(68 亿美元)收购了BO,由此业界知名的水晶报表也被收归旗下; 11月,IBM也以50亿美元收购了同是商业智能公司的Cognos。



    发生这一系列收购的原因很简单,随着用户信息化应用的逐步深入以及数据信息的爆炸式增长,使得企业需要一整套的信息管理工具,将数据转化为有价值的信息并为企业所用。与此同时,数据库技术也已经逐步发展成为全面的信息管理—从数据库到数据仓库再到商业智能。IBM、微软、甲骨文等老牌数据库厂商也已经将帮助用户实现将业务数据转换成企业信息资产作为了自己的目标。



    事实上,2007年11月,IBM在收购Cognos的同时,就提出了企业构建信息管理的三层架构: 底层是数据库及内容管理; 中间一层是数据仓库及信息集成; 上层是商业智能及数据分析。当时,IBM软件集团信息管理产品策略副总裁Inhi Cho Suh就强调,在中间一层,作为数据整合工具的数据仓库会在信息为企业所用的过程中扮演非常重要的角色。无独有偶,微软在帮助企业构建信息管理架构时,同样强调数据仓库是对数据进行分析并支撑企业决策的重要基础。



    作为企业的重要战略资产,做到信息的随取随用的确是企业信息管理发展的终极目标。不过,在当时就提出这样的概念是不是还为时尚早?企业已经具备了实现这一目标或开始实施的条件了吗?两年前,无论是用户还是记者,对此都存在很大的疑问和顾虑。然而,在两年后的今天我们发现,国内已经有很多用户通过数据仓库整合了不同业务系统中的数据,为实现更高层面的商业智能和数据分析打下了坚实的基础。



    决不是    ”大型数据库“



    很多人误以为数据仓库就是一个更大规模的数据库,显然并不是这样,数据仓库是为了进一步挖掘数据资源并支持决策需要而产生的,数据仓库的建立并不是要取代原有的数据库,而是要建立在一个更全面、完善的数据应用基础,以用于支持决策分析。



    对于用户来说,要想实现商业智能以及数据分析就要先建数据仓库吗?数据仓库与数据库的本质区别是什么?数据仓库与传统数据库在整个企业信息管理架构中的角色又有哪些不同?资深软件架构师王祥认为,数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,并支持决策需要而产生的,它决不是所谓的”大型数据库“。虽然数据仓库中所保存的数据来自于日常运行的、不同业务系统的数据库,但这些数据是经过了加工和重组的。因此,数据仓库中所存储的数据是源数据的增值和统一,而并不是简单的数据拷贝。



    IBM软件集团中国区信息管理技术经理刘晶炜也强调,虽然数据仓库的最根本特点就是物理存放数据,而且这些数据并非是最新的、专有的,而是来源于数据库的,但数据仓库的建立并不是要取代原有的数据库,而是要建立一个更全面、完善的数据应用基础,以用于支持更高层面的决策分析。



    通常,在企业内部都会存在很多分散系统或是异构系统,尤其是那些信息化程度较高的企业甚至已经有上百种业务系统在同时运行,要想对这些业务系统中的数据进行分析,直接从单一系统中抽取数据并做分析在技术实现上是完全没有问题的,而且成本还会更低。但是,这些存在于不同业务系统中的数据并不应该是孤立的,企业要想真正实现决策分析,就要对不同业务系统中的数据做关联分析,或者说是综合分析,这时,就需要将这些分散在不同系统中的数据进行关联。



    通过ETL抽取工具将不同数据库中的数据抽取到数据仓库,将异构数据源有效集成,并进行重组,这种方法就很好地将分散数据关联在了一起。事实上,这也正是数据仓库的本质: 用于支持决策,面向分析型数据处理,显然这并不同于传统意义的数据库; 对多个异构数据源的有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。



    ”在数据库中,有一张一张的表,这些表通过数据库关联在了一起,这样就能实现表与表之间的关联性分析。扩展到更大的氛围,要想把财务系统、OA系统、CRM系统等这些不同的业务系统真正关联进行,就一定要把这些系统中的数据抽取出来进行重组,然后再做分析。“北京大学人民医院信息中心主任刘帆表示。



    据刘帆介绍,目前,人民医院已经构建了自己的数据仓库,并将三大数据主体中的数据都整合到了这一数据仓库中。据了解,人民医院主要有三大数据主体: 一是医院的所有后台业务系统,像其他企业一样,用ERP来管理物流、财务、人力资源成本以及应收应付总账等; 第二个数据主体就是临床HIS,也就是面向病人的收费,包括门诊、住院等; 三是临床信息,包括电子病历、检验数据、影像结果等。



    以前,在人民医院这三大数据主体是完全分散的,并没能有效地整合在一起,针对某个病人就有两条主线: 一条是财务主线,也就是病人在医院里发生的所有费用; 还有一条主线是病人在医院里所有医疗和诊治的流程,比如病历、检验结果和影像结果等。这种孤立的方式显然无法实现以病人为中心的服务。”因此,我们要对这两条主线进行综合分析,这就一定要把三大数据主体串联在一起,只有这样才能更有效地分析财务与临床之间是不是相互影响。“ 刘帆介绍说。



    ”之前,比如我们发现某个病人的花费比正常情况高了,就必须去另一个系统中查询具体的病症情况,结果发现他在院内发生了感染,造成后续的诊疗费用增高。“ 刘帆介绍说,”在构建了数据仓库之后,我们现在通过商业智能工具对所有数据进行综合分析,而且还可以实现预警。比如,某种病毒突然高过一个预警值,就可以提示医生是不是某种药物出现了什么问题; 或者在某个科室中有三四病人同时受到了感染,医生就会考虑是不是院内的交叉感染。“



    做好业务规划



    对于用户来说,在实现信息为企业所用的过程中如果能有一个比较长期的规划,并按照这一规划逐步实施,无疑是一种最有效的方式。然而,要想做到这一点却并不容易,庞大的业务系统让很多企业只能从某些业务需求开始。



    人民医院按照自己对数据管理的规划有步骤地将三大数据主体通过数据仓库有效整合,并实现了商业智能。然而,对于很多大型行业用户或是集团型企业来说,庞大的业务系统使其无法一时做好全盘规划,它们往往都是从某一业务需求开始实现数据分析的。Sybase软件(中国)有限公司技术总监卢东明介绍说:”我们的用户四川移动,它们就通过商业智能来分析用户对彩信以及WLAN的使用习惯,指导自己的业务营销,并实现了更精准的投放。“ 事实上,这就是一种从业务需求点开始的数据分析。



    选择这种部署方式其实很容易理解,这些行业用户的信息化都做得比较早也比较深入,当某一业务系统有了对数据分析的需求时,企业就开始从这一业务需求或者说是这一业务系统开始做规划,选择商业智能工具,构建数据仓库,这是一种自下而上的构建方式。”当他们发现另一个业务系统也存在对数据分析的需求时,又要重新按照这一步骤进行规划,而且在通过数据仓库整合数据的过程中还会出现一些新问题——之前那个数据库中的数据还要再一次进行重组。“王祥表示,”在通过这种方式实现了几个业务系统数据的分析之后,企业就会发现,自己必须要对数据管理有一个全盘的规划,虽然现在还不可能一蹴而就将所有业务数据都整合到数据仓库。“



    对于泰康人寿这样的保险公司来说,在粗放型的市场阶段,追求的是保险销售的覆盖面,但在今天,当市场在一定程度上实现了饱和之后,挖掘高端客户的深层价值就显得更为重要。”高端客户显然不希望时不时地就接到推销保险的电话,他们需要的是一种更自主的服务。“泰康人寿相关负责人说,”这就给我们提出了很高的要求,如何满足用户整个生命周期的需求,比如读书、成家、生小孩到最后退休?如何从以个人为主体发展到以家庭为单位?这些都需要数据分析作为支撑。“



    ”保险销售人员与用户接触的时间往往只有短短的两三分钟,系统要能够在这一时间范围内将用户的所有信息都展现出来,包括用户的消费习惯、家庭成员等,并通过交易记录分析出用户处在哪个时期,可能会需要什么样的产品等。“ 泰康人寿的这位负责人表示,”之前,我们也经历了从单一系统做数据分析的方式,但随着市场竞争环境的改变,深层次、跨系统的信息协作要求我们对数据的分析不可能是单一的,必须要对多个系统的数据进行综合分析,这就要求我们必须要有一个全盘的规划。“



    在王祥看来,对于很多大型用户来说,这可能是一个必经的阶段,因为业务需求本就是信息化的根本动力,能够让业务部门真正看到数据管理给他们带来的好处,才能更大程度地推进数据仓库和商业智能的应用。”但需要强调的是,企业必须要对未来有一个明确的数据管理目标。发展到今天,多数企业都已经经历了这个阶段,对数据仓库及商业智能建设也有了全盘的规划。“ 王祥表示。



    同时,也正是因为业务需求是企业信息化建设的根本动力,企业在构建数据仓库的过程中,一定明确数据仓库系统所能解决的业务问题,也只有明确的业务需求才能让建设人员对与数据仓库所需要达到的目标有一个清楚的认识。



    此外,数据仓库建设还应该被纳入到企业的战略规划中。也就是说,当企业管理者在考虑企业的战略目标时,同时就应该考虑怎样利用数据仓库来进行日常的经营分析,怎样利用数据仓库来追踪影响战略目标的关键业绩指标?怎样利用数据仓库系统来辅助企业决策?只有将数据仓库变为日常决策和经营的一部分,才是真正实现商业智能。



    数据质量是关键


    数据仓库不是数据的仓库,更不是数据的垃圾仓库,数据仓库建设成功的关键在于高质量的数据。要想通过数据仓库实现异构数据源的有效集成,并建立数据应用基础以支持决策分析,首先就要确保数据的完备以及高质量。此外,在选择工具的同时,选择一个合适的技术框架也至关重要。



    数据无疑是数据仓库应用的关键,数据质量的好坏会直接影响到数据仓库建设的成败。比如,对于电信运营商来说,客户的背景资料,如性别、年龄、家庭关系等对于客户需求的相关分析以及市场营销都非常重要,但在大部分国内电信运营商的数据库里,性别不详的用户比性别为男或女的用户都多。”国外的电信运营商都很注重对于客户家庭成员的相关分析,以找到新的业务需求点,如果这些数据信息都不完善,根本就不可能进行类似的分析。 “王祥表示。



    除了数据信息是否完备外,数据标准是否统一也非常重要,因为其是保障数据质量的重要前提。”在医院里对于性别的描述,可能在有的业务系统的数据库中用的是M和F,有的是1和0,还有的可能就是男和女,都不统一。“据刘帆介绍说,”通过数据清洗将这些命名统一后,才能支撑有效的分析。“



    事实上,为了确保数据的质量,在很多行业都定义了统一的数据标准,其中也包括很多跨行业的数据标准,这些数据标准对于推动数据仓库以及商业智能的应用发展起到了至关重要的作用。据王祥介绍,比如,在保险行业、国际贸易领域、化学化工类行业等都会有自己的行业数据标准,同时这些行业还都要去遵循诸如国际港口城市标准化代码之类的一系列标准。



    当然,数据问题不仅仅是数据质量的问题,对于金融、电信等行业来说,数据过载的问题也应该被给予更高的重视。”这些行业用户的业务系统本就是海量的数据系统,而数据仓库系统通常都要存储比业务系统多得多的历史数据,而且,数据在进入到数据仓库后,为了提高展现和分析的效率,会生成部分冗余和汇总的数据,30%的膨胀率对于数据仓库系统而言是很平常的。“卢东明就强调,因此,企业要把那些需要用来分析的数据加载到数据仓库中,这对于用户来说是一个非常重要的课题,否则数据仓库就会变成垃圾仓库。



    此外,很多用户在构建数据仓库的过程中,把很多精力都放在了ETL、OLAP等工具的选择上了。这些工具固然是成功建设数据仓库的基础,但有一个重要前提是,要在明确各个阶段的技术框架之后再来选择合适的工具。选择一个合适的技术框架,包括合适的逻辑数据模型和物理数据模型; 合适的数据抽取策略,到底是先转换后加载,边转换、边加载,还是先加载后转换; 合适的数据展现策略,ROLAP、MOLAP还是HOLAP,都至关重要。从某种意义上说,选择了一个合适的技术框架,从技术层面而言,数据仓库已成功了大半。



    什么是数据仓库?



    数据仓库之父Bill Inmon在1991年出版的《Building the Data Warehouse》一书中定义数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。



    ● 面向主题: 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。



    ● 集成的: 数据仓库中的数据是在对原有分散的数据库中数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。



    ● 相对稳定: 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期地加载和刷新。



    ● 反映历史变化: 数据仓库中的数据通常会包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。



    早在2004年,上海证券交易所就建设了TB级的数据仓库。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。