首页 > 大数据 > 正文

数据仓库与数据集市

2010-07-13 17:06:46  来源:万方数据

摘要:当今,越来越多的企业和商业机构需要准确把握信息确定战略,而新一代数据仓库和数据集市技术就为数据收集、整合、挖撅提供了卓有成效的解决方案。本文从数据仓库和数据集市的概念
关键词: 数据仓库 BI 数据

    20世纪80年代中期,“数据仓库之父”Wiliam H.Inmon先生认为:数据仓库(Data Warehouse)是在企业管理和决策中面向主题的(Subject Oriented)、集成的(Integrate)、与时间相关的(Time Variant)、但信息本身又相对稳定的(Non-Volatile)数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,是对分布在企业内部各处业务数据的整合、加工和分析的过程,而不是一种可以购买的产品。

    数据集市可称作“小数据仓库”,是用来分析相关专门业务问题或功能目标而做的专项数据集合。它建立在具有统一数据存储模型的数据仓库下,各级业务人员按照各部门特定的需求把数据进行复制、处理、加工,并最终统一展现为有部门特点的数据集合。

    1 数据仓库的体系结构

    Ralph Kimball和Bill Inmon一直是商业智能领域中的革新者,开发并测试了新的技术和体系结构。Kimball和Inmon同意组织需要一个与遗留系统和OLTP系统分开的数据仓库,以捕获组织的有关信息并使之可用。数据仓库中的数据应该是净化的、一致的,并且不受其来源的遗留系统和OLTP系统设计的牵制。在开始第一个数据集市之前,他们还同意用针对整个体系结构的思想重复构建数据仓库。

    Bill Inmon将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”。Inmon通过“面向主题”表示应该围绕主题来组织数据仓库中的数据,每个主题区域仅仅包含与该主题相关的信息。数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市。

    Ralph Kimball说“数据仓库仅仅是构成它的数据集市的联合”。他认为“可以通过一系列维数相同的数据集市递增地构建数据仓库”,通过使用“一致的”维,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素。Kimbal的方法将提供集成的数据来回答组织迫切的业务问题并且要快于Inmon的方法。Inmon的方法是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市,而Kimbal认为该方法缺乏灵活性,并且在现在的商业环境中所花时间太长。

    实际上,方法的选择取决于项目的主要商业驱动。如果该组织正忍受糟糕的数据管理和不一致的数据,那么Inmon的方法就更好一些;如果该组织迫切需要给用户提供信息,那么Kimbal的方法将满足该需求。数据仓库将使数据集市与遗留系统和OLTP系统隔离,并且支持更快地创建将来的数据集市。

    遗憾的是,个别部门经常滥用Kimball的方法,并将之作为脱离集中控制而构建他们自己数据集市的借口。当试图跨集市访问数据以获取联合视图时,这将造成严重问题,而集中式信息体系结构将避免这一点。

    2 数据仓库的构建

    对于数据仓库的概念,我们可以从两个层次予以理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

    根据数据仓库概念的含义,数据仓库拥有以下4个特点:

    (1)面向主题的。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据按照一定的主题域进行组织。

    (2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的;而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业一致的全局信息。

    (3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进人数据仓库以后,一般情况下将被长期保留。

    (4)反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势作出定量分析和预测。

    企业数据仓库的建设是以现有企业业务系统和业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。

    整个数据仓库系统是一个包含4个层次的体系结构,具体结构见图1。

图1 数据仓库系统结构图
图1 数据仓库系统结构图


    数据源:是数据仓库系统的基础,是整个系统的数据源泉,通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据;外部信息包括各类法律法规、市场信息和竞争对手的信息等等。

    数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

    OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。

    前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。

    3 数据仓库平台的评测指标

    目前,专门针对数据仓库平台的评测指标,主要是由TPC组织开发的TPC-D。TPC是交易处理委员会(Transaction Processing Performance Council)的英文缩写,是一个国际性的组织.专门负责为各种开放平台在不同类型的应用制订一个统一、公正的测试标准。

    对于数据仓库系统,TPC-D主要考虑三方面的数据需要:

    QppD:是Query Processing Power D的缩写,D表示这个结果是按照TPC-D标准测得的(下同),这个数据描述了系统的查询处理能力。

    QthD:是Query Throughput D的缩写,即流量测试结果,描述了系统在多个用户同时进行查询时的处理能力。

    QphD:是Query Price-Performance的缩写,即性能价格比。

    显然,前面两个指标的数据越大越好,而最后一个则越小越好。TPC-D的测试是在不同的数据库级别上进行,主要可供参考的是100Gb,300Gb,1000Gb和3000Gb 4个级别上的测试结果。

 


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。