2012-10-29 11:25:50 来源:互联网
1.引言
商业智能(Business Intelligence,BI)的概念最早于1996年由加特纳集团(Gartner Group)提出,并对商业智能做如下的定义:商业智能描述了一系列的概念和方法,辅助商业决策的制定是通过基于事实的支持系统所提供的,商业智能技术为企业迅速分析数据提供技术和方法,包括收集、管理和分析数据,并将这些数据转化为有用的信息,然后分发到企业各处。
2.商业智能(B1)系统中数据的理解与处理
2.1 数据抽取(ETL)技术
商业智能可以看成是一种解决方案。关键在于从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理,最后将知识呈现给管理者,为管理者的决策过程提供支持。从BI的技术框架图中,可以看出整个BI系统中,涉及数据处理的关键是数据源到数据仓库中的ETL部分,ETL过程的成功与否决定了数据仓库数据的正确性和可用性。
数据抽取(ETL,data extraction,transformation and loading),是对数据进行抽取、清洗、转换和整合的过程,是数据进入数据仓库的入口。通过ETL的过程,数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。
在数据抽取阶段以下几点值得注意:
2.1.1 数据的有效性检查
为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要的。如果没有进行数据的有效性检查,就有可能破坏依赖于数据仓库的商务分析的完整性,帮助检查数据的有效性的最好方法是源系统专家。源系统专家包括具有技术专业知识和非技术知识的人士。
2.1.2 数据的清洗和转换
由于数据抽取中的数据是来源于业务系统中的业务数据,难免会存在各种原因所导致的脏数据,例如数据不在给定的界限之内或对于实际业务来说毫无意义的数据。这些数据就是数据清洗的对象。清除数据包括对那些在给定范围之外的数据采取纠正和舍去等措施。
同样,由于数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台上,使用不同的操作系统的,又或者是属于不同的业务系统。因而这些数据的存储格式各不相同,或者相同的数据具有不同业务含义。而数据的转换正是为了解决这一问题而必须进行的数据抽取步骤。
2.1.3 数据的聚合与分割
由于数据仓库中数据的来源是不同的业务系统数据,而各个系统对数据存储的粒度(粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别)各不相同。而数据仓库中同一分析主题中数据的粒度必须是统一的,所以,为了保证数据粒度的一致性,必须对原有数据进行聚合(汇总)或分割(细化)。
[page] 2.1.4 数据安全性
数据的抽取必非一个完全的技术问题,往往牵涉整个企业中各个不同部门中数据的共享。那么数据共享中的权限等安全问题也就是数据抽取中必须要认真对待的问题。如何保证数据抽取中和数据集中后的限制与共享往往需要业务人员的配合和介入,不能将该问题当作单纯的技术问题来对待,而必须进行周密的考虑和计划。
2.2 ETL转换过程中的数据处理
ETL过程最复杂的部分就是T,这个转换过程从对数据源的整个宏观处理可分:
2.2.1 大表和小表关联
这种处理在数据清洗过程是很常见的,例如从数据源到ODS阶段,如果数据仓库采用维度建模,而且维度基本采用代理键的话,必然存在代码到此键值的转换。如果用SQL实现,必然需要将一个大表和一堆小表都Join起来,当然如果使用ETL工具的话,一般都是先将小表读入内存中再处理。这种情况,输出数据的粒度和大表一样。
2.2.2 大表和大表关联
大表之间的关联存在最大的问题就是性能和稳定性,对于海量数据来说,必须有优化的方法来处理他们的关联,另外,对于大数据的处理无疑会占用太多的系统资源,出错的几率非常大,如何做到有效错误恢复也是个问题。对于这种情况,尽量将大表拆分成适度的稍小一点的表,形成大小交的类型。这类情况的输出数据粒度和主表一样。
2.2.3 聚集
数据仓库中重要的任务就是沉淀数据,聚集是必不可少的操作,它是粗化数据粒度的过程。聚集本身其实很简单,就是类似SQL中Group by的操作,选取特定字段(维度),对度量字段再使用某种聚集函数。但是对于大数据量情况下,聚集算法的优化仍是探究的一个课题。
3.结语
数据抽取(ETL)技术是商业智能的四大关键技术之一,ETL技术是商业智能得以实施的一个基础性的技术,它与元数据管理相结合,提供对不同数据源的数据进行抽取,转换,清洗,加载的功能,集成和净化来自于多个不同系统的数据,然后将之载入物理数据库中。限于多方面的原因,本文在数据的理解与处理方面未能详尽的说明,希望能和同行一起共同探讨。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。