2012-03-27 14:45:08 来源:万方数据
2.1 数据抽取ETL
ETL过程是进行数据的抽取、转换和“净化提炼”处理的过程。要对从多个不同业务数据库抽取的数据,进行数据项名称的统一、位数的统一、编码的统一和形式的统一,消除重复数据。
ETL工具包括数据抽取、数据转换、数据清洗和数据加载。在构建数据库的过程中,外部数据源所提供的数据并不都是有用的,有些数据对决策并不能提供支持,同时,外部数据源中的数据冗余的现象也很普遍,以主题的需求为依据,对数据源的内容进行有目的的选择,这一过程被称为“数据抽取”。数据转换是把数据仓库的不同格式的外部数据源对其格式进行转换处理,统一格式。数据仓库的外部数据源所提供的数据内容并不一定都是好的,有些数据是有缺陷的,在数据仓库的各数据源之间,其内容也存在着不一致的现象。为了不让这些缺陷数据影响数据仓库的分析结果,要采取各种有效的措施,将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响DSS决策的正确性,这一过程称为“数据清洗”。把清洗后的数据装入数据仓库的过程称为数据装载。数据装载要综合考虑经营分析需求,对不同业务系统的数据采用不同的加载周期,但必须保持同一时间业务数据的完整性和一致性。
网络商务智能平台的ETL模块主要解决的问题有以下几个:
(1)ETL功能全部以子模块的形式提供。每一个ETL子模块对应于一种类型数据源的ETL功能,对于新的数据源类型,只要在系统中添加相应的ETL子模块。
(2)常用的ETL子模块是JDBC数据源的抽取模块。
(3)系统要包含一些常见的JDBC驱动。
(4)将每一个数据源构建一个数据类型映射,将该数据源的每个数据类型映射到网络商务智能平台内部数据类型上。
(5)网络商务智能平台内部数据类型使用JDBC标准数据类型。
2.2 数据仓库
在众多的数据仓库定义。中,公认的是W.H.Inmon的定义,W.H.Inmon对数据仓库的定义是在《Building the Data Warehouse》一书中提出的。他将数据仓库定义为:一个面向主题、集成的、非易失的、非时变的数据集合,用于支持管理决策的过程。
一般地,数据仓库具有四个主要特征:
(1)面向主题性。面向主题是数据仓库中数据组织的最基本原则。一般来讲,一个数据仓库中可以有若干个主题,一个主题可以分解成若干个子主题,这样逐层分解从而构成一个主题层次。数据仓库的创建、使用都是围绕主题实现的,所以,必须了解如何按照决策分析来抽取主题,所抽取出的主题应该包括哪些数据内容,这些数据内容应该如何组织。
(2)集成性。数据仓库中数据的集成性,是指在构建数据仓库的过程中,多个外部数据源内格式不同、定义各异的数据,按指定的策略经过抽取、清洗、转换等一系列处理,最终构成一个有机的整体。
(3)非易失性。数据仓库的非易失性是指数据仓库的用户进行分析处理时不进行更新操作,一旦数据进入数据仓库以后,就会保持一个相当长的时间,但并不是说在数据仓库的整个生存周期中数据集是不变的。数据的非易失性可以保证不同的用户在不同的时间查询、分析相同的问题时,获得同一结果。
(4)时变性。数据的时变性是指数据仓库的内容随时间的变化而不断的得到增补、更新。当然数据仓库不能频繁地更新数据,但为了保证决策分析的正确性,更新是必要的。[page] 2.3 OLAP
OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过很多种可能的观察形式对已经转换的信息进行快速、稳定一致的交互性的存取,允许管理决策人员对数据进入深入观察。OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
OLAP的原则是快速性、可分析性、共享性、多维性、信息性。快速性是指系统应当使用各种技术,尽量提高对最终用户的响应速度。可分析性指系统应对与用户及应用相关的任何业务逻辑进行统计分析,这一分析过程不用编程而且要尽量利用已有的综合路径以及统计公式,分析类型应包括时间序列分析、成本分配、货币兑换、非过程化建模、多维结构的随机变化等与应用相关的特征。共享性指多个用户存取数据时,系统应保证安全性。尤其是当存在多个用户向OLAP服务器写数据时,系统应在适当粒度上加更新锁。多维性是OLAP应用的实质,OLAP系统必须提供数据的多维概念视图。信息性指在OLAP系统中给出的不再是散乱的数据,而是能够导入具有指导意义的信息。
2.4 数据挖掘
数据挖掘是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。简单地说,数据挖掘就是从大量数据中提取或挖掘知识。
数据挖掘的分析方法可以分直接数据挖掘和间接数据挖掘两类。直接数据挖掘的目标是利用可用的数据建立一个模型,这个模型对剩余的数据进行描述,包括分类、估值和预言等分析方法。在间接数据挖掘的目标中,没有选出某一具体的变量并用模型进行描述,而是在所有的变量中建立起某种关系,如相关性分组或关联规则、聚集、描述和可视化及复杂数据类型的挖掘,如文本、网页、图形图像、音视频和空间数据等。
2.5 网络商务
网络商务是在网络环境下开展的商务活动,其中的网络计算环境主要是指各种网络应用,包括数据网络、设备网络、信息服务网络、知识网络和远程沉浸网络等方面的应用。从应用服务层面上讲,网络商务是由网络计算环境创造的、超越时间和空间约束的、以透明的服务方式和极快的速度实现的商品交换。网络商务应该是网络化的购销市场,使用网络应用和服务完成商品购买和服务。总的来说,网络商务是指网络计算技术在经济、管理和商务等领域应用,对企业的组织形式、盈利模式、营销战略和知识管理等方面发生重大变化的全新商务模式,是具有商业活动能力的实体,为提高商务活动效率,通过透明的外包应用服务,在一定的商务规则下,充分利用网络技术在商务领域中的应用,来实现资源的全面共享,以提高企业核心竞争力,最终完成商品交易服务的一种贸易形式。
3 技术难点
3.1 ETL抽取的多样化
ETL抽取的对象是各种各样的数据源,包括文件、关系数据库、嵌入式数据库等各种形式。这些数据源产品的特性都各不相同,而对其支持软件也不能支持所有的数据库功能。即使比较成熟的有几十万行代码的开源ETL工具,也不能解决系统所需要的全部功能。
这里采用数据源分层架构的方法,把任务逐层分解,把大任务尽量分解成为比较容易解决的小任务,构造了一个具有基本功能的高度可扩展的框架。
3.2 Web Service参数映射
Web Service的一个大特点就是高度的跨平台性。不同的操作系统上不同语言开发的应用程序,只有通过Web Service的协议就可以实现互相通信。不同语言开发的应用之间的通信是通过将语言类映射为Web Service标准类来实现的。而Web Service的标准类一般是高级语言集合的子集,因此一些高级语言如Java中的对象无法完全映射为Web Service标准类型的,即使映射成为Web Service标准类型,在。NET开发的程序中也无法正常读取。所以说Web Service的跨平台性也只是某些限制条件下的跨平台。
这里采用Java语言的类型序列化技术,将Java语言的对象序列化到二进制编码中,然后通过Web Service传输二进制字编码,在网络的另一端将二进制编码再解码为Java对象,这种方法成功地解决了Web Service参数映射问题。
4 基于网络的商务智能体系结构
基于网络的商务智能体系结构设计为三层,底层为数据模型层,中间为控制服务层,上层为客户端视图层。数据模型层是系统的数据建模底层,以数据库软件为基础构造数据仓库、联机在线分析处理、数据挖掘;控制服务层把要解决的业务逻辑封装为若干个子系统,并基于Web Services技术构建网络服务平台,供客户端调用数据挖掘服务;客户端视图层提供C/S架构客户端视图、B/S架构网络浏览器视图、移动终端浏览视图以及第三方扩展软件的视图。架构的系统具有的功能组件如图2所示。
图2 基于网络的商务智能系统功能组件图
5 结束语
本文介绍了基于数据网络的商务智能应用。结合网络技术、商务智能、数据仓库、数据挖掘等技术,提出了基于数据网络的商务智能应用的体系结构。这种结构将数据网络服务与商务智能系统紧密结合起来,有效地解决了商务智能应用程序对分布式异构数据库进行统一操作的问题,极大地扩展了数据网络的应用领域和商务智能的有效性。随着数据网络和商务智能技术的不断提高,基于数据网络的商务智能将会得到广泛的应用。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。