2013-12-17 09:50:41 来源:CIO时代网
数据仓库从产生到现在,大致经历了以下几个阶段。
1.企业级数据仓库(EDW,1991)
数据仓库最早成型的概念是1991年提出来的。建设数据仓库的非常具体的原则,包括:
·数据仓库是面向主题的。
·数据仓库是集成的。
·数据仓库是包含历史的。
·数据仓库是不可更新的。
·数据仓库是面向决策支持的。
·最明细的数据存储。
·数据快照式的数据获取等。
这些原则到现在仍然是指导数据仓库建设的最基本原则,虽然中间的一些原则引发一些争论,并导致一些分歧和数据仓库变体的产生。
2.数据集市
由于企业级数据仓库的设计、实施很困难,使得最早吃数据仓库螃蟹的公司遭到大面积的失败。因此数据仓库的建设者和分析师开始考虑只建设企业级数据仓库的一部分,然后再逐步添加。但是这也带来了一些问题:各个实施部分的数据抽取、清洗、转换和加载是独立的,导致了数据的混乱与不一致性。另外,EDM由于固守OLTP系统的第3范式设计,从而无法支持DSS系统的对性能和数据易访问性的要求。
这时,“数据集市”的概念出现了,它采用Dimensional Modeling,在传统的关系型数据模型和多维OLAP(星形模型)之间建立了很好的桥梁。从此,数据集市在很多地方冒了出来,并获得很大成功,而企业级数据仓库的概念逐渐被人们淡忘。
在初期,数据集市的快速实施和较高的成功率让“数据集市”占了上风,但是很快,他们也发现自己陷入了某种困境:企业中存在着6~7个不同的数据集市,分别有不同的ETL,相互之间的数据也不完全一致。同时,各个数据即使又被当成众多OLTP系统之后的又一个系统,而不是一个基础性的集成性的平台,甚至为了保证系统的性能,有的数据集市删除了历史数据。
所谓“自顶向下”是指从建造某个特定部门的数据集市开始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能够完全反映企业全貌的企业级数据仓库;而“自底向上”则是从一开始就从企业的整体来考虑数据仓库的主题和实施。
现在通常被大家认可的,比较切合实际的做法是将“自顶向下”和“自底向上”两种实施方法结合起来构建数据仓库。
基于这种思想,具体实施时可以采用“统筹规划,分步实施”的方针。根据业务需求,把业务运作涉及的主要方面都涵盖进去,确定彼此之间的联系;对于次要的需求,可以预留一些接口,以备将来细化。如果摊子铺得太大,没有重点,每一部分都进行深度细化,那么整个调研就会拖得很长,等进入实施阶段,某些业务可能已经发生变化,不得不重新修改设计,从而造成浪费。所以,先搭建好一个易于扩展且稳定的架构,在此基础上逐步实施,是一个兼顾长远发展与合理投入的最佳方式。另外,分布实施还可以减少风险:前一阶段的经验教训可以为下一阶段提供有益的借鉴,以减少不必要的损失,从而使得数据仓库的建设纳入到不断完善、不断发展的良性循环中。
3. 数据仓库的现状
数据仓库技术在我国的发展很快。很多不同的行业如电信、银行、金融、保险、制造、零售等都建立了自己的数据仓库,其中最具代表性的当属“中国移动”和“中国联通”两家最大的中国电信运营商所构建的“经营分析系统”。当然,数据仓库的风险很大,这主要是因为数据仓库是面向分析的,所以把握住业务需求是成功实施数据仓库项目的前提。如果不能满足业务需求,数据仓库的技术实现再完美也没有意义;第二,必须从技术上保证数据可以高效而准确地从业务系统中获取,能够有效地对数据仓库中庞大的数据进行管理,以及针对企业不同层次的人员提供对数据灵活而有效的访问。另外,数据仓库牵扯到多个部门,多个系统,如何有效获取高层领导的支持,协调各方资源,有效地进行项目管理也是影响数据仓库项目成败的关键。
只有处理好这些关键问题,才能保证数据仓库的成功实施,并在日后的扩展中不断完善发展。也只有这样,才能正真为企业带来可观的回报。
4.数据仓库的发展趋势
数据仓库未来会怎么发展呢?有人说是Real-Time DW,也有人说是Active DW,还有人说是Dynamic DW 、General-Purpose DW等。不管怎么说,从其历史发展过程来看,以下几个趋势是比较明显的:
·从战略决策到决策的发展。这对DW的实时性和可获得性提出了更高的要求。这就需要有更好的变化数据捕捉机制,可以快速方便地将数据抽取至数据仓库中。
·需求更加多样化。它要求系统从架构和应用层次上去适应不同的需求,并且不同应用之间的交互要非常方便。
管理数据量更大。这对数据建模、数据组织和层次划分提出了更高的要求。要求数据仓库平台可以提供风多的提升性能的方法。
·嵌入式。数据仓库的功能与业务应用的集成更加紧密。例如ERP中的财务分析模块和销售模块,以及用于企业战略管理的平衡记分卡应用等。这些应用通过内置的BI分析工具,直接从相关的业务应用中提取数据加以分析,提供多种的展现输出方式给各级业务人员进行分析。
·集成性的要求。最终的数据仓库将与OLTPtub应用共同使用一个数据库。数据库中不同的instance服务于不同的应用,管理人员不需额外对这些不同的应用进行配置。另外,数据仓库中涉及的技术,越来越趋向于数据仓库本身集成在一起。这样既可以保证系统的高性能,又使得系统更易扩展、开发和维护,从而增强系统的可靠性。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。