首页 > 大数据 > 正文

数据仓库技术及其实施策略

2010-07-13 16:57:14  来源:万方数据

摘要:数据仓库技术是20世纪90年代信息技术构架的新焦点,是信息处理领域一项重大的技术创新。本文概要介绍了数据仓库技术提出的背景、概念、主要特点,并讨论了数据仓库的体系结构以及企
关键词: 数据仓库 数据集市

    一、数据仓库技术

    1、数据仓库产生背景

    应用和技术的发展总是相互作用的,一方面,现代社会的广泛电子化、数字化提供了前所未有的、有待加工和处理的原始数据。就一个企业而言,这些数据量大约五年就可增长一倍,这主要指企业日常运作中所产生的有助于企业决策的数据,还不包括多种源于企业外部的各种有用数据,如市场分析、研究报告、各种咨询机构提供的各种报告等等。另外,数据的形式也突破了传统的数字和符号,包括了原始商业文档、多种图形、图像数据等,故许多企业、部门并不是缺少数据,而是常常被过分重复和不一致的数据所困扰,从而越来越难以有效管理和存取这些数据,使之用于决策过程,这种局面自然导致一个强烈的要求,要求有一种系统能存取这些数据,并将它转换成一种可信赖的、有用的信息。

    另一方面,现代企业经常面临各种挑战,如何最大限度地挖掘各种有用信息,使企业在激烈的市场竞争中立于不败之地,并获得最大的商业利润,也为计算机信息处理技术提出了新的要求。例如,如何支持数据集成,因为在企业的发展过程中已建立了许多应用系统,如库存管理、财务及人事管理等,积累了大量的数据,而原有应用通常都是针对某个部门单独设计的,这样,如何运用新的应用,使这些应用可以利用已有的数据。又如,企业除对日常业务数据进行增、删、改等事务处理和简单汇总外,管理者往往要综合利用历史和现有的各种数据进行综合分析。

    由此导致了数据仓库技术的提出。数据仓库是计算机应用领域里的一个崭新方向,已成为90年代信息系统体系结构新的技术焦点,它是来自多个数据源的数据的拷贝和集成,从历史的角度来组织和存储数据,同时保证关键任务数据的完整性和安全性,为企业发展提供有效的技术支持。

    2、数据仓库的概念及其主要特点

    世界公认的数据仓库概念创始人、美国着名信息工程学家W.H .In mon在他的《Building the Data W ar ehouse》一书中对数据仓库给出了一个定义:数据仓库(Data Warehouse)就是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。

    由于Inmon本人在数据仓库发展中的作用,他的上述描述相对地成了一个权威的定义。其它的有代表性的观点还有:

    Stanford大学的数据仓库研究小组认为,数据仓库是集成信息的存储中心,这些信息可以用来查询或分析。

    Informix公司负责研究与开发副总裁Tim.Shelter认为,数据仓库是把分布在企业网络中不同信息岛上的商业数据集成到一起,存储在一个单一的集成关系数据库中。利用这些集成信息,可以方便用户对信息的访问,更可使决策人员对一段时间内的历史数据进行分析,研究事物的发展趋势。

    SAS软件研究所的观点,数据仓库是一种管理技术,旨在通过合理、流畅、全面的信息管理达到有效的决策支持。

    从上述几种观点同时可以看出:数据仓库的主要功能是提供企业决策支持系统(Decision Support System)所需要的信息,它把企业日常运作中分散的、不一致的数据经过归纳整理后转换为集中的、统一的、可随时取用的深层信息。

    从上述几种观点同时也可以看出,数据仓库的主要特点是:

    (1)数据仓库是面向主题的

    数据仓库中的数据是面向主题进行组织的,而传统数据库是面向事务处理应用进行数据组织的。主题是指一个分析领域,是在一个较高层次上对数据进行组织、归类的标准。假如为保险公司建立数据仓库,则所选主题可能是政策、保险金、索赔、客户等,而按应用组织的数据库则可能是汽车保险、生命保险、财产保险等。面向主题的数据组织方式就是在较高层次上对分析对象的数据的一个完整的、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的关系,从而使得面向主题的数据组织可以独立于数据的处理逻辑,方便了在多种环境上开发新的分析型应用。同时,这种独立性也是建设企业全局数据库所要求的,故面向主题不仅适用于分析型数据环境的数据组织形式,也适用于建设企业级数据库的数据组织方式。当然,同一主题的数据根据其时间、访问频率等可存放在不同的设备上,以优化数据仓库的整体性能。

    (2)数据仓库是集成的

    不论数据来源何处,在进入数据仓库之前,必须经过加工与集成,统一与综合,从而在进人数据仓库之后都具有统一的数据属性和编码结构等,即数据仓库中的数据具有一致性的特点。

    (3)数据仓库是稳定的

    数据仓库中保存的是大量的经集成、加工过的综合性历史数据,是供企业决策分析之用的,所涉及的数据操作主要是查询,一般情况下并不轻易改动,只做定期刷新。

    (4)数据仓库是随时间变化的

    数据仓库中的数据不可更新是针对应用来说的,即数据仓库的用户进行分析处理时不进行数据更新操作,但这并不等于说,数据在从集成到数据仓库开始到最后被删除的整个生命周期中都是永远不变的。主要体现在:

    1)随着时间的变化,要不断向数据仓库中增加新的数据。数据仓库系统必须不断捕捉OLTP(联机事务处理)数据中变化的数据,追加到数据仓库中。

    2)随着时间的变化,要不断删除数据仓库中的老数据。数据仓库中数据也有存储期限,一旦超过这一期限,过期数据就要被删除。一般操作型环境中数据的保存期限为60-90天,而在数据仓库中为适应趋势分析,需保存更长的时间,如5-10年。

    3)由于数据仓库中包含大量的综合数据,而这些综合数据中很多与时间有关,故随着时间的变化,这些数据也要不断进行更新、综合。

    二、数据仓库的体系结构

    体系结构定义了一个应用系统中每个组成部分的功能和责任。在数据仓库技术中,数据和信息从不同的数据源提取出来,然后被转换成公共的数据模型并且和仓库中己有的数据集成在一起。当用户向仓库进行查询时,需要的信息已经准备好了,数据冲突、表达不一致等问题已经得到了解决,从而使决策查询更容易、更有效。故作为一个系统,数据仓库至少应包括三个基本的功能:

    1、数据获取:负责从外部数据源抽取数据,对数据进行检验和整理,并根据数据仓库的设计要求和规则,对数据重新组织和加工,装载到数据仓库的目标数据库中,并周期性地刷新数据仓库以反映数据源的变化,并进行时间相关性处理。

    2、数据存储和管理:负责数据仓库的内部维护和管理,包括数据存储的组织、数据的维护、数据的分发、数据仓库的例行维护等。

    3、信息访问:负责提供分析人员和决策人员多方位、多角度访问数据仓库中数据的功能,并将结果以多种形式表现出来。数据仓库的目标和作用最终都要通过该部分提供给用户。该部分主要由桌面系统的各种工具组成,如查询生成工具、多维分析工具、数据挖掘工具等。

    虽然ORACLE、Sybase等厂商都提出了自己的数据仓库结构,但严格来说,任何一个数据仓库结构都是从一个基本框架发展而来,实现时再根据分析处理的需要具体增加一些部件。在众多高校和研究所对数据仓库的研究中,Stanford大学的数据仓库计划(WHIPS)处于领先地位,他们提出的一个有普遍代表性的数据仓库体系结构如图1所示。

图1 数据仓库的基本体系结构

    图1 数据仓库的基本体系结构

    ◇ 信息源(Information Sources)是指为数据仓库提供最底层数据的操作型数据库系统以及外部数据。

    ◇ 监视器(Monitor)负责自动监测信息源中数据的变化并按数据仓库的需求提取数据。

    ◇ 集成器(Integrator)负责对从操作型数据库中提取的数据进行转换、计算、汇总等操作,再集成到数据仓库中。

    ◇ 数据仓库(Data Warehouse)存储已经按企业级视图转换的数据,供分析处理用。根据不同的分析需求,仓库中的数据按不同的汇总级别存储。当然,数据仓库中还应有元数据(Mata Data),它记录了数据的结构和数据仓库的任何变化,以支持数据仓库的应用开发。

    ◇ 客户应用(Client Application)供用户对数据仓库中的数据进行访问查询,并以直观的方式表示分析结果的工具。

    三、数据仓库的实施

    一个企业要建立一个数据仓库通常是基于下面的理由:

    1、为了进行分析和决策,需要准确的相关信息。而数据仓库的本质就是它所包含的信息是每个人都认同的。

    2、数据采集和更新的自动化。在许多组织里,数据被存储在各种异构系统中,数据仓库会自动完成数据的采集和更新,并使数据符合一个单一的标准。

    3、加载后的分析和报表功能。当联机事务处理(OLTP)也用于处理分析和报表时,其效率将会降低。通过建立一个单一的数据仓库,联机事务可以不必中断,因而其性能就不会因管理和分析查询而降低。数据仓库是一个解决问题的方案,而不是一个可以买到的现成产品,它是诸多学科相互结合、综合应用的一门技术。不同企业有不同的数据仓库,最终用户(End User)往往并不清楚他们的真正需求,转而依赖于信息系统的人员来定义数据仓库的应用需求,而数据仓库开发人员即信息系统(IS)人员只专注于计算机系统本身,缺乏对企业整个业务运作的业务知识,因此就需要双方互相沟通,共同协商来开发数据仓库。

    一般来说,建立数据仓库包括过程:

    a.启动项目:确定建立数据仓库的目标,制定项目计划。

    b.建立技术环境:选择实现数据仓库所需要的软硬件资源。

    c.确定主题,进行仓库结构设计:因为数据仓库是面向决策支持的,它具有数据量大但更新不频繁等特点,所以必须对数据仓库结构进行精心设计,以免随着仓库中数据量快速增长,造成系统分析和查询性能的急剧下降。

    d.数据仓库的物理库设计:根据用户需求,从某个主题出发,对数据仓库中数据的物理存储结构进行设计。

    e.数据抽取、清洁、转换、汇总、装载:根据数据仓库的设计,从各种数据源中抽取数据,并进行清理、转换、综合等处理,最后装载到数据仓库中去。

    f.开发支持用户决策的数据分析工具:建立数据仓库的目的是为了实现决策支持,所以需要各种工具对数据仓库进行访问分析,如优化查询工具、统计分析工具、数据挖掘工具等,通过分析工具实现决策支持需要。

    g.数据仓库环境的管理:为了保证数据仓库的正常运行,必须对数据仓库进行管理。

    随着数据仓库技术的发展,出现了多种实施策略,但总结起来,有下面二种:

    1.“自顶向下”策略(Top-Down)该策略首先建立一个企业范围内的数据仓库,从理论上讲,该全局数据仓库包含了决策支持所需要的一致的数据。面向各个部门的决策支持所需要的数据从全局仓库中提取,这部分数据构成了该部门的数据集市(Data Marts)。(图2)

图2 “自顶向下”策略

    图2 “自顶向下”策略

    该策略的优点是:(1)数据集市继承了数据仓库的优点,从而更易于维护;(2)确保了数据的抽取、清洁、集成和使用数据方法的标准化;(3)允许组织从全局的角度看待其商业活动,把数据汇总至企业级。

    其不足是:(1)建设周期长,短时间内难见其效果,从而加大了项目支持压力;(2)必须得到CEO或其他权威的高级管理层的支持才有机会成功;(3)各个部门都希望按自己的需要定制数据仓库中的数据,而数据仓库中的数据是面向整个企业的所有部门的,所以必须在各部门间做好协调工作。

    2.“自底向上”策略(Bottom-Up)该策略是先建立面向特定部门或特定商业问题的数据集市,然后在这些数据集市的基础上建立全局数据仓库,目前这种实施策略比较流行。(图3)

图3 “自底向上”策略

    图3 “自底向上”策略

    该策略的优点是:(1)因为是面向特定部门,涉及的数据范围小,能更快地实现,因而也能很快得到回报;(2)因为投资风险小、开发周期短,可以在该环境中逐步学习和培训。

    其缺点是:(1)存在不能把数据集市集成进整个企业数据仓库的潜在危险;(2)由于各部门可能会“封锁”数据,因而会影响到数据仓库的成功实施。

    总之,数据仓库的实施是一个不断循环、反馈而使系统不断增长与完善的过程,在整个实施过程中自始至终都要求决策人员与开发者的共同参与和密切合作,从而保证数据仓库项目的顺利进行,进而在日益全球化的市场竞争中获得更大的利润。

    四、结束语

    目前,几乎所有行业都面临着激烈的竞争,正确及时地决策是企业生存与发展的重要环节,越来越多的企业认识到,只有充分利用、挖掘其现有数据,才能实现更大的效益。日常的业务应用生成了大量的数据,这些数据若用于决策支持则会带来显着的附加值,如果再加上行业报告、独立的市场调查、评测结果和顾问评估等外来数据,上述处理过程产生的效益可进一步提高。数据仓库正是以汇总这些信息为基础,进而支持数据挖掘、多维数据分析(MDA)等当今尖端技术和传统查询及报表功能,这些对于企业在当今日趋激烈的竞争中保持领先是至关重要的。

    由于人们对信息的需求永无止境,特别是INTERNET的迅猛发展,要求数据仓库不仅仅能处理企业内部结构化的数据,也应能处理大量的外部的非结构数据(如文本数据、多媒体数据等),同时还要能将处理结果以更直观的可视化的方法展现给最终用户,这也给数据仓库的发展提出了新的挑战。另外,如何将底层数据的变化及时传播上去、如何加强对数据仓库的管理等问题都是数据仓库在发展中不可避免要遇到的问题,这将有待于进一步认真研究,加以解决。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。