首页 > 大数据 > 正文

主动实时数据仓库技术简析

2012-07-24 09:35:34  来源:互联网

摘要:业界公认的数据仓库概念是创始人W.H.Inmon在《数据仓库》一书中对数据仓库的定义:数据仓库就是面向主题的、集成的、不可更新的、随时间不断变化的数据集合。
关键词: 数据仓库
    1 常规数据仓库的不足

    业界公认的数据仓库概念是创始人W.H.Inmon在《数据仓库》一书中对数据仓库的定义:数据仓库就是面向主题的、集成的、不可更新的、随时间不断变化的数据集合。

    但是,常规的数据仓库也有其不足:

    (1)常规数据仓库是被动的,分析数据和作决策都要用户手工参与,在用OLAP技术进行多维分析时往往是由用户提出分析要求再回答这些问题;(2)常规数据仓库的实时性较差,通常只能分析历史数据,而且数据抽取周期过长,极大地降低了企业的应变能力,难以反映瞬息万变的市场变化,实时数据仓库的出现改变了这个局面。

    2 主动实时数据仓库的提出

    传统数据库的时间变化周期通常为一天或一周,但是网络使得现在的商业操作即时化,对数据变化周期的要求愈加苛刻。因此,Michaem Haisten提出了实时数据仓库 JRTDW(Real-Time Data Warehouse)概念,也就是所谓的“零延迟数据仓库环境”的一部分。许有志 这样描述主动实时数据仓库的系统数据流:当OLTP系统中有操作性事务发生后,该事务中所改变的数据将被实时部分的监控模块捕捉。监控模块将数据传输至操作数据存储(ODS)。在ODS中,数据将被存放一定的时间。正如Samuel S.Conn所提出的,下一代数据仓库是以加速信息循环周期、消除信息延时,使不同水平的用户能更用效地利用及时信息而出现的实时数据仓库

    3 主动实时数据仓库的研究

    3.1 一般改进型主动实时数据仓库

    传统数据仓库是由ODS(Operational Data Store)、数据仓库、数据集市和BI工具组成。OLTP系统中的操作型数据在数据仓库的非响应期批处理载入到ODS中。张磊和王备战认为一般的实时数据仓库有服务器容易负载、触发机制性能低、同步机制代价高、数据库效率低以及数据验证开销大等缺点,于是提出一种改进,主要是改进或增加了以下几个模块:实时监控模块、数据集成模块、数据存储模块和实时分析模块。改进的模型通过EAI提供的实时监控模块来监控操作型事务中改变的数据。监控模块捕捉的数据传输到增强的ODS模块中。数据在ODS中存放一定的时间,一是与数据仓库中的数据进行整合处理,二是进行时段性分析。最终,实时数据将被导入非实时部分中,执行传统数据仓库的功能,整合历史数据,用于战略查询。[page]    3.2 基于SOA的实时数据仓库

    SOA,面向服务的体系结构(service oriented architecture)是一个组件模型,它将应用程序的不同功能单元称为服务,通过这些服务之间定义良好的接口和契约联系起来。基于SOA的实时数据仓库思想是采用Web Services技术实现跨平台的、无缝共享的、实时的数据交换。基于SOA的实时数据仓库系统最关键的体现是Web Services,它建立在一系列与平台无关的协议之上,包括HTTP,XML,UDDI,WSDL,SOAP。这些协议在源数据库、EAI中间件和数据仓库之间,是SOA技术实现方式。SOA要求动态的定位和调用服务,这可以通过UDDI,WSDL,SOAP实现。SOA要求服务接口契约的平台无关性,XML可以实现。私有UD2D I注册中心包含了所有关于Web服务的描述文件,对这些服务的调用均要首先在注册中心搜索以决定调用的端口和方式。SOAP封装WSDL描述的服务,实现实时数据传输。但是该实时数据仓库会在出现超出负载和web服务安全通信机制问题,同时数据集成也会成为瓶颈。

    3.3 基于多Agent的主动数据仓库

    所谓多Agent系统是指一个由多个自治运行的Agent组成的集体,由多个Agent组成的智能群体的重要之处在于通过Agent之间的相互对话和相互协商工作有效地完成共同的任务。在徐有志等人的研究中,提出了基于MAS的系统模型的多Agent数据仓库结构,它通过多个Agent之间的交互来完成数据抽取、传输以及数据查询,该系统模型分4个层次:数据监控层、数据处理层、数据查询层、用户交互层。在该系统模型中,多Agent间协同采用显式协同,即基于通信的协同。Agent间通过KQML语言实现彼此问的交互协同,共同完成目标。

    3.4 基于分析规则的主动数据仓库

    常规的数据仓库应用中,分析和决策较多地依赖于用户参与。王子红 等为了在自动决策以及实时性等方面对常规的数据仓库进行改进,提出了一种基于分析规则的主动数据仓库体系结构,它在常规的数据仓库的基础上引进了分析规则,通过对主动规则的改进而设计的分析规圳能满足主动数据仓库的特性。相应地还对数据仓库的元数据进行了扩展。该系统统主要由5部分构成,分别是:ADW工具集,OLTP系统,常规数据仓库,多维数据市方体,上动数据仓库引擎。该系统通过ADW具定义分析规则,分析规则被存储到分析规则存储器,由定义的分析规则产生的事件(Events)被放人事件队列并统一管理。分析规则管理机制根据事件队列中的事件以及存储于分析规则存储器中的分析规则进行自动决策管理。发生冲突时由分析规则管理机制负责处理,最终得到的结果由分析结果管理器进行处理。

    4 主动实时数据仓库的应用

    主动实时数据仓库可以解决传统数据仓库无法完成的任务,例如:利用呼叫中心进行自动的客户营销,在电信服务中防止电话诈骗,供应商预测销售量并及时补充商品……有报道称Oracle公司提供的数据集成解决方案用于在SOA、BI和数据仓库环境中构建、部署和管理以实时数据为中心的架构,企业可以将其开发成本降低30%,数据处理速度提高50%,业务流程执行时间减少至少70%。随着市场的发展,数据仓库不仅被要求用来提供战略性的决策支持,还需要对企业各业务单元的日常运作提供战术性的指导,主动实时数据仓库技术的发展,提高了企业对外部信息的反应速度和决策自动化能力,其提供的可执行的分析有效地驱动了企业的业务系统运作,实现了企业信息的共享,连接了各部门的流程运作和各业务平台之间结合,极大地延伸了商业智能的范畴,是数据仓库技术的发展方向之一。

第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:fanwei

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。