2008-04-23 08:41:10 来源:ITPUB
1. build the data warehouse iteratively, not in a "big bang" approach
迭代构建数据仓库,而不是采用“大棒”方法
数据仓库实施过程中最简单最重要的方法就是迭代构建一个数据仓库。而不是采用“大棒”方法构建数据仓库。快速创建数据仓库的一个迭代,然后不断调整,并快速进入下一个迭代,以此类推。不要一下子收集所有需求,也不要采用瀑布开发生命周期的方式开发数据仓库。
2. be prepared for massive volumes of data
做好大数据量的准备
开始启动数据仓库项目时,一定要清醒地认识到你正在处理你以前从未看到过的大量数据。数据仓库以TB甚至PB来度量数据量。而旧有的业务系统则以MB或者GB来度量。数据量的增加将代表很多含义——比如采用什么样的硬件,性能如何,多少用户数,查询规模等等。不要想当然的认为之前的设计和管理技术经验也能适用于数据仓库环境。
3. make sure the end user is involved up front
确保终端用户的介入
要确保终端用户在数据仓库初期的设计和开发阶段就介入进来。如果你不能够保证终端用户的介入,这将会导致一场灾难——很可能数据仓库从技术上是成功的,但是却是组织上的梦魇,因为没有人会使用这个数据仓库。
4. be alert to the fact that the data warehouse is built under a very non classical development approach
需要提防的事实:数据仓库是基于非传统的开发方式的
一个建议是:数据仓库开发环境与早期的开发环境是非常不同的。数据仓库的开发是基于螺旋形的开发方法理论。螺旋形开发理论也可以成为启发式的迭代的开发方法学,即首先从一个很小的部分开始开发,然后逐渐开发其它部分等等。
螺旋式开发方法论的反面这是瀑布式方法论。瀑布方法论源自于结构化的分析和设计,需要在下一步动作开始前,必须完成之前所有的设计工作。瀑布方法论对于开发业务系统而言确实是很好的方法。
5. the role of metadata is very important
元数据的角色非常重要。
元数据是数据仓库环境中的一个非常重要的组成部分。元数据能够告诉用户数据源自哪里存放在哪里。元数据在数据仓库环境中扮演着一个卡片目录或者路标的角色。
6. the transformation process will consume huge amounts of resources
转换处理会消耗大量资源
在数据仓库开发处理过程中,集成和转换消耗了60%到80%的开发资源。实际上最初大多数设计人员和开发人员并未意识到所需要的巨大资源。
资源所需的原因在于大量数据需要被集成。集成行为是非常复杂的。典型的集成活动例如转换、重新格式化、重构、再计算、定义缺省值、排序、改变DBMS环境、变更操作系统等等是必须的。
7. data marts are built with the data warehouse as the sole source
从数据仓库中建设数据集市作为一个单独的数据源。
一个重要的架构考虑是从数据仓库中构建数据集市。直接从业务系统中建设一个数据集市确实是一种诱惑,但是设计者必须自觉抵制这种诱惑。
Building data marts directly from operational applications is a very short sighted approach.
直接从业务系统中构建数据集市是一种非常短视的方法。我们建议把从数据仓库中构建数据集市作为一种长期的方法。
8. dormant data will creep into your warehouse and must be managed
静态数据的蔓延和管理。
在某种程度上终端用户必须清醒地意识到构建数据仓库的成本是必须考虑的,在数据仓库建设早期,费用问题不是很大的问题。但是随着数据仓库的增长和用户数的增长,成本的增加要求我们必须采取不同的行动。
9. the costs of warehousing must be post allocated back to the actual user
数据仓库的成本要及时反馈给实际客户。
10. while a data model is essential to the warehouse development, the creation of the model had better not hamstring the development process
构建一个数据模型对数据仓库来说是必须的,但是决不要破坏数据仓库开发的进度。
一方面数据模型对于数据仓库的开发来说是绝对必要的,另一方面为了构建一个数据模型而停止整个数据仓库开发绝非好主意。
一个开发数据模型的可行方法是:
-从类似的非竞争业务中获取一个数据模型
-注意相关行业联系
-寻找一个通用行业模型等等
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。