首页 > 大数据 > 正文

数据仓库——商业智能的基石

2010-07-13 17:06:02  来源:万方数据

摘要:商业智能是企业以客户为中心、以市场为导向、以效益为目标的运营战略的要求,数据仓库是企业成功实现商业智能,全面提升企业竞争力的基石。本文主要对数据仓库的概念和体系结构、
关键词: 商业智能 BI

    1 数据仓库的产生和发展

    被称为数据仓库之父的W.H.Inmon在他1990年出版的《建立数据仓库(第一版)》一书中第一次为数据仓库给出了明确的定义,真正把数据仓库上升到一个理论高度。他认为数据仓库的历史是伴随着信息处理领域的决策支持系统(DSS)处理的发展过程开始的,在这个发展过程中,随着计算机技术(尤其是计算机存储技术)的发展和抽取处理程序的流行,一种更大规模的体系结构逐渐勾勒出来。在这种体系结构中,数据仓库处于中心位置。

    自数据仓库产生至今,在企业的决策支持要求、企业的竞争要求、企业的商业智能(BI)要求的巨大推动下,作为决策支持基础的数据仓库的运用经历了一个不可思议的快速增长过程,数据仓库本身,包括数据仓库体系结构、数据仓库处理规模、数据仓库性能等也经历了一个快速发展过程,数据仓库的价值也产生了质的变化。

    不管企业是如何构建数据仓库的,数据仓库通过在收集信息、决策分析、未来趋势预测、制定战术上、战略上的商业策略等方面的支持力度体现自身的价值。现在在业界,当问到为什么需要数据仓库以及数据仓库的价值或重要性时,回答几乎都是一致的,那就是数据仓库能为企业带来战略优势,尤其是能支持全方位地了解客户,但是在数据仓库使用初期,情况却不是这样的。在过去的十年里,数据仓库的价值得到了快速持续的增长。

    如图1所示,最开始时数据仓库只是用来制作一些静态的报表,数据转移到数据仓库中就是为了更好地控制数据以及提高数据查询性能,以方便地出一些能够提供简单信息的报表。显然静态报表不能满足决策的需求,数据仓库开始面向对象设计,以产生智能性的信息,面向对象数据仓库的数据是面向主题组织的,从这样的数据仓库中可以很方便地获取某一主题的信息,这些信息主要是面向企业或部门决策的某一方面,比如客户。当不止一个部门纳入到数据仓库的建设中时,数据仓库开始面向整个企业进行决策支持,这时企业的整体利益是根本。当数据仓库利用于面向企业决策支持时,在数据仓库中加入人口统计学、行为分析等知识后就能够获取充分的信息对客户有一个360度的了解,辨识出有价值的客户,并且能为客户提供他所需的,有效地进行cross-sale和up-sale。这时企业的决策周期也大大地缩短了,从以前的2、3年一次,发展到现在一年2、3次。在分析决策支持活动中,静态报表被多维分析、数据挖掘代替,基于数据仓库中的集成化的智能信息所做的决策影响整个企业,提高整个企业的收入。随着商业的全球化,更多的数据和信息纳入到了数据仓库,数据仓库朝着增值战略又迈进了一步,企业运营策略重点转移到:如何为已有的客户提供更好的服务以及如何拓展客户基础,包括公司的资源配置、企业价值链上所有的资源、新的销售和营销渠道,而客户资料(信息)已经扩展到心理特征、行为特征以及潜在竞争对手,这时的数据仓库面向企业的价值链提供个性化集成的智能化信息。以电信为例,数据仓库在各个阶段所能回答的问题如表1所示。

数据仓库价值曲线
图1 数据仓库价值曲线

数据仓库在各个阶段所能回答的问题

表1 数据仓库在各个阶段所能回答的问题

    2 数据仓库体系结构

    在数据仓库研究领域非常强调数据仓库是一个体系。其实我们可以从两个角度去理解什么是数据仓库:从一种狭义的特定角度来看,如果我们专注的是一个核心,那么可认为数据仓库是一个数据集合,W.H.Inmon的定义也是从这种角度出发归纳出来的;如果从广义上从实践上理解,我们应该把它理解成一个体系结构,一个以所定义的数据集合为中心的、以决策支持为主导的、支持企业运作的IT体系结构。

    2.1 数据仓库的定义

    数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策,数据仓库包含粒状的企业数据。

    (1)面向主题的:数据仓库中的数据是按照商业问题或决策进行组织的,通过这样的数据组织,数据被有效地转化成了信息,而决策分析人员也可以很方便地获得决策分析所需要的信息。典型的主题领域一般包括客户、产品、营销活动、帐单、投诉、帐目等,在数据仓库中主要主题领域是以一组相关的表来具体实现的。主题的确定是数据仓库设计中一个很重要也是很复杂的内容,主题的确定直接影响数据仓库的可用性和价值。一般采用建立企业数据模型的方式确定分析主题,必须和相关的业务分析人员进行反复沟通共同建立分析主题。

    (2)集成的:在数据仓库的所有特性之中,集成是最重要的特性。由于操作系统的独立建设,在设计时并没有考虑和其他系统的相关性和一致性,所以当数据进入数据仓库时,要采用某种方法来消除应用问题中的许多不一致性,即进行集成。一般常见的一致性处理有:编码的一致性、度量单位的一致性、描述或定义的一致性、格式或类型大小的一致性等。数据的集成和转换(ETL)在数据仓库实施中是最困难最复杂也是最耗时的。数据仓库的数据源主要是企业的各个应用系统,在进行数据集成和转化之前必须定义记录系统,即必须确定哪些系统或系统中的哪些数据是符合要求的,对此,就必须理解所有的系统和系统中的数据。由于各个系统的建设为事务处理服务的,因此数据组织方式和数据表现形式与用于分析的数据组织方式和表现形式不同,而且形式多样,为了处理数据,必须根据数据形式确定规则,而规则是否全面和准确直接影响数据仓库的数据质量。目前在ETL领域遇到的还有一个问题是ETL的耗时。当为了支撑决策分析的数据越来越多,比如客户的增长和业务量的增长,需要处理的数据越来越多,处理数据的时间必然越来越长,而市场的竞争又对决策支持的响应时间要求越来越短,能否在一定的时间内完成ETL成为数据仓库价值的一个关键因素。调整数据仓库体系结构优化数据仓库性能,提高系统的运行能力,增加硬件投资扩容是一个办法,但不是最终解决问题的方法。新一代业务支撑系统的兴起将为ETL的简化提供很好的支持。

    (3)非易失的:操作型系统中一般需要对数据记录进行逐个的增删改操作,而在数据仓库中与操作系统中的数据操作不一样,在数据仓库环境中并不进行一般意义上的数据更新,数据仓库的数据通常是一次载入与访问的,也就是说数据经过集成化处理后一次载入数据仓库的。对于数据的维护,一般采用新增记录。虽然在某些情况下可以采用更新的方式,但是这种情况极少可能。而这并不意味着数据仓库中的数据是一直不变的。其实数据仓库的数据也需要清理,只是这里的清理不是简单地将数据从数据仓库中删除,而是将数据仓库的早期数据转移到更便宜的存储设备上,或者把早期的细节数据进行综合保留。清理数据仓库还有一个重要的内容就是对于休眠数据和脏数据的处理。休眠数据是指那些存在于数据仓库中的、当前并不使用、将来也很可能或者根本就不会使用的数据。脏数据是指那些错误的数据。虽然我们说要确保数据的质量,但是这两种数据都不可避免地会存在于数据仓库中。识别和处理这两种数据是提高数据仓库性能的一个方面,虽然处理起来不是那么容易。在数据仓库构建当初,这个问题可能不是特别明显,但是随着数据仓库的运作,这将成为一个数据仓库管理的重要内容。数据仓库中的数据维护策略是数据仓库实施中的重要内容,维护策略制定的合理性直接影响着整个数据仓库的功能和性能。

    (4)随时间变化:操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。也就是说数据仓库中按时间保留对应的历史数据。数据仓库中的数据总是与时间相关的,在企业模型的基础上建立数据仓库模型的过程中一个重要的内容就是去除纯操作数据的同时加入时间元素。数据仓库的键码结构总是包含某时间元素。在数据仓库中数据记录触发一般是“时间-发生”型的,比如某个时间开始进行数据处理活动。

    (5)多重粒度:粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小例如清单级数据;相反,细化程度越低,粒度级就越大,例如月汇总数据或应用汇总数据。显而易见,粒度与数据仓库的性能和功能有着息息相关的关系,它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型:

    ① 数据粒度和数据存储量的矛盾:如果数据仓库的空间很有限的话(数据量总是数据仓库中的首要问题),用高粒度级表示数据将比用低粒度级表示数据的效率要高得多,在高粒度级上,数据进行了很大的压缩。

    ② 数据粒度和数据处理能力的矛盾:高粒度级不仅只需少得多的字节存放数据,而且只需较少的索引项,低粒度级则相反。小数据量的数据访问效率比较高,而大数据量的数据访问效率比较低,为了有效地访问大量数据,需要系统具有更大的数据处理能力。

    ③ 数据粒度和回答查询的能力的矛盾:当提高数据粒度级时,数据所能回答查询的能力就会随之降低。换句话说,在一个很低的粒度级上你实际可以回答任何问题,但在高粒度级上,数据所能处理问题的数量是有限的。

    因此,为了平衡性能和功能和费用,一般选择多重粒度。所谓多重粒度就是指在数据仓库中既有粒度小的如清单级的数据,又有粒度大的数据,比如汇总数据,汇总力度多大,决定于系统的处理能力和用户的要求。数据仓库中的数据是有粒度层次的(如图2所示)。

图2 数据仓库数据层次结构
图2 数据仓库数据层次结构

 


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。