2012-08-23 10:23:54 来源:万方数据
(1)数据仓库结构及特点
随着信息处理技术的发展,使得各类数据、信息急剧增长,给数据的传输、存储都带来了许多新的问题。人们希望能够看到所有数据和信息的综合情况,而这些数据与事务处理有许多不能被原有数据结构描述,不能被现有应用系统综合使用。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据来自联机的事务处理系统、异构的外部数据源、脱机的历史业务数据等,这个数据中心就叫数据仓库。
被誉为数据仓库之父的W.H.Inmon将数据仓库定义为:“数据仓库是一个面向主题的、集成的、相对稳定的和随时间的数据集合,用于支持管理决策和商务智能。”数据仓库技术,简单的说,就是将企业内外部的数据进行全面的集成、清洗和整理,去除一些纯事务性的数据,将企业数据按主题放置到一个“仓库”中,然后在次基础上建立各种决策支持的数据为企业服务。基本结构如图1所示:
图1 数据仓库体系结构
对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库拥有以下四个特点:
①面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织,它与传统数据库中的面向应用相对应。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。[page] ②集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。它能够统一原始数据中的矛盾之处,还能够将原始数据结构从面向应用向面向主题转变。
③相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
④反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
图2 导出数据过程
根据以上的特点,在数据仓库里,数据是在对不同来源的数据抽取、清理的基础上经过系统加上、汇总和整理得到的一个紧密的整体;数据所提供的信息是关于某一特别的主题而不是关于一个公司的日常运营,数据仓库在构建之初就明确其主题,即确定决策涉及的范围和所要解决的问题。数据仓库中的所有数据都由某一个特别的时间段来识别,数据仓库中的数据是相对稳定的,数据仓库中的数据主要供企业决策分拆之用,一旦某个数据进入数据仓库一般被长期保留,修改和删除操作很少,通常只需要定期的加载、刷新,这使得管理人员能获得一幅关于商务的一致的画面。
数据仓库的一个重要作用是为决策者提供必要的智能,促进决策者更好的理解商务危机、商务机会和运营状况。在决策支持过程中,数据仓库主要有四个流程:整合、执行、智能和创新,如图3所示。
图3 数据仓库的四个流程
[page] (2)数据仓库和数据集市
数据集市(Data Marts)是为了特定的应用目的或应用范围,从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据,通常服务于单个部门或企业中的部分用户。按照业务的不同可以分为财务、销售、市场等多个数据集市,每个数据集市只包含特定领域内的数据。数据仓库和数据集市的比较如表1所示。
表1 数据仓库与数据集市比较
关于构建数据仓库和数据集市先后顺序,有两种截然不同的学术观点,Ralph Kimball认为“数据仓库仅仅是构成它的数据集市的联合”,而Inmon认为只有在构建几个单主题区域之后,集中式的数据仓库才能创建数据集市。实际上,方法的选择取决于项目的主要商业驱动。如果该组织正忍受糟糕的数据管理和不一致的数据,或者希望为今后打下良好的基础,那么Inmon的方法就更好一些。
如果该组织迫切需要给用户提供信息,那么Kimball的方法将满足该需求。而一旦满足了迫切的信息需求后,就应该考虑包含独立数据仓库的数据体系结构的转换计划。特别需要注意的是个别部门要防止滥用Kimball的方法而脱离集中控制。
(3)数据抽取、转换、装载数据抽取、转换、装载上具(Extract Transform.Load.ETL)是数据仓库的重要组成之一,它是把数据从不同的操作型数据库、业务部门和企业外部数据库中拿出来,进行必要的转化、整理,再以统一定义的格式存放到数据仓库内。它首先对数据进行筛选,去掉对决策没有意义的数据段,然后将数据转换成统一的数据名称和定义,计算统计和衍生数据:估计遗失数据的缺省值。数据抽取、转换与装载过程的目的在于把来自各个不同平台的数据合并到决策支持环境下的商务智能目标的数据仓库的标准格式中去。数据抽取工具能对各种不同存储方式的数据访问,应能生成不同程序、作业控制语言、脚本和语句等,以访问不同的数据。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。