2010-10-22 10:15:36 来源:万方数据
近几年,商业智能(BI)技术得到了大量的应用并取得显著的应用效果,相应的商业智技术也日趋成熟。国外知名的商业智能(BI)软件供应商相继在国内亮相,国内的BI厂商也纷纷推出了各自的商业智能产品,IBM、ORACLE、微软等公司纷纷推出了支持BI开发和应用的软件系统。目前商业智能主要应用在金融、电信、保险、零售等数据集中程度高的行业,但在生产制造领域内,尤其是配方产品的制造行业,由于企业信息化水平高低不齐,商业智能并未得到很好的利用。配方产品企业积累的大量的历史数据,其中蕴含这很多宝贵的经验和知识,企业急需从这些数据挖掘出这些知识,使传统的经验配方转变为科学配方,以支持产品质量的稳定和提高以及新产品的开发,提高品牌产品的综合竞争能力。
在业务需求上,随着数据库、数据仓库技术的发展,企业积累的生产数据也呈现指数级的增长。数据积累只是一个过程,它最终的目的是从海量的数据中提取出实用、有价值的信息,从而能指导以后的生产和决策,提高产品质量和企业效益,使企业在激烈的竞争中站稳脚跟。对于配方行业来说,其配方产品的制造流程大致相同,都是经过原料采购,原料的存储和加工,配方的设计以及生产线制造等,最终的产品质量的好坏也是通过消费者或专家的感官评估情况判断的。在整个制造过程中,包括基础原料指标数据、辅助材料规格、生产配方的组合信息,加工过程中的工艺参数等,所有这些数据参数都会影响最终产品的质量。那么它们之间是怎样的影响关系,怎么来描述这种影响,控制和改变哪些数据和指标能够提高最终产品的质量,是我们值得研究和感兴趣的问题。以往只是行业专家凭借多年的生产经验能对问题进行一定的解释,很难被其他人掌握,而且这些经验由于缺乏科学理论依据,不能快速形成知识为大家所掌握,使相关工作人员的业务掌握程度很慢,在一定程度上阻碍了科研的进行和新产品的开发。要想把这些产品数据内部的知识突破专家的界限,以更简单的方式呈现在所有人的面前,让更多人掌握,需要信息技术的支持,需要完整规划的配方设计计算机系统。在技术需求上,商业智能由业务需求的驱动而产生,由决策支持系统发展而来。它是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,通过数据分析和数据挖掘,来实现数据一信息一知识一决策过程的系统实现技术商业智能作为一种技术架构,是目前相对成熟的支持数据分析、数据挖掘以及决策任务的工具,在很多行业的应用已经取得了很好的效果。它可以应用到任何需要数据分析和决策支持的系统中,因此商业智能技术可以也应该应用到配方行业的产品质量分析和配方设计中。
商业智能系统最核心的价值不是平台,而是模型。但目前由于国内配方行业应用BI的企业并不多,应用深入的更少,应用基础也比较薄弱;国外配方行业的研究也主要集中在数据分析和规律的挖掘,也没有太成熟的适用于某个配方的行业商业智能模型,需要尽快建立各种适合行业特色的商业智能解决方案,行业业务应用经验加上商业智能产品才是BI的真正价值体现。
配方以产品为中心,以质量为目标,关注原料、成本等生产要素,有别于其它的行业。商业智能技术在配方设计领域应用的目标就是通过数据整理、分析,找出生产过程中对产品质量影响较大的关键环节,及其影响关系,从而合理的指导工艺生产,达到稳定和提高产品质量的目的。商业智能还可以发现产品原料指标和产品质量指标的关系,提供一种关系模型,帮助配方人员选择最佳的工艺参数和配方比例,来指导配方改革和新产品研发。在整个产品生产的角度上看,利用B1分析结果制定有关策略、规划,对资源进行合理配置,达到节约成本提高产品质量的目的。
软件工程与智能信息系统是笔者研究方向,笔者在校期间主要研究商业智能技术在数据分析和决策支持的系统应用,选择该课题作为毕业设计一方面是对校学习和工作实践的系统总结,另一方面也为笔者以后在此方向的工作需要打下扎实的基础。
研究意义
商业智能以及数据挖掘技术日趋成熟,但在关注产品质量的配方产品行业的应用却一直空缺。宝钢曾结合质量分析,应用数据挖掘技术,实现质量问题的诊断,进入了把商业智能技术应用到生产中,但也只是在局部质量分析上的应用。与配方产品生产相关的行业拥有大量历史生产数据,急需通过分析这些数据,挖掘出其中隐藏的关系规律以指导产品生产,优化产品配方,提高产品质量。配方行业的需求与商业智能的目标是一致的。
在配方产品生产中,主要任务是稳定和提高产品质量以及研发新产品。往常配方人员开发产品通常根据经验,不断评吸、反复尝试,这种开发设计过程已经不能适应配方行业的市场变化。企业需要根据市场的需求快速研制新配方,推出新产品,但配方设计一个复杂的过程。在比较传统的配方行业,比如烟草,啤酒,中药等,一个配方中往往需要几十个不同的原料组合,而配方原料存在地区,等级,年份等差异,而且同一个原料的内在品质也随着时间变化。品牌需要保持自己的风味特点,只有掌握这些原料的质量随库存、时间、加工等的变化情况,才能为配方选择恰当的原料搭配。配方产品的原料大都是农作物产品,其内在化学成分随着高温高压等加工过程而发生变化,而这些成分是对最终产品的外观和口感等产生影响的关键因素,怎么合理控制工艺参数,才能保持较好的产品感官,就需要分析工艺参数变化和化学成分变化之间复杂的非线性关系。利用各种统计技术和智能技术等数据分析方法进行规律分析是必然的途径。通过数据分析和挖掘能提高配方设计的效率、降低成本,保持品牌风格的统一性;还可以优化原料库存结构,指导原料的采购。
要解决以上问题,无论是对数据的分析和研究、对规律的挖掘、知识的展现和以及模型的保存,还是结果的预测都需要通过完整的系统来实现,这样的配方辅助系统与传统的业务管理系统不同,它主要体现在对数据的研究,对结果的展示上,需要用到不同的库结构和系统体系结构,商业智能技术正好符合需要。本课题以实际项目研究为背景,充分考虑企业信息化建设的现状和应用的实际需求,以商业智能技术在配方产品行业的应用为出发点来进行讨论,能对相关行业的产品配方辅助设计系统的商业智能应用提供一定的参考和借鉴。
1.2 相关研究现状
商业智能的应用现状
商业智能在国外起步较早,已经得到国外企业普遍认同,并取得很好的应用效果和商业价值。其在中国处于起步阶段,企业对其认识还不充分,但随着BI软件厂商的高调亮相和宣传以及典型的BI成功应用案例,使其逐渐被大家所接受和期待。
2008年9月第三届中国IT技术趋势大调查活动中对商业智能技术做了连续调查,调查数据表明,已经有60%以上的企业开始了商业智能项目的开发和应用(没有从事商业智能开发的企业和个人比例为31%,07年没有从事商业智能项目开发的企业或个人比例为47.7%1。虽然这已经是一个很不错的比例,然而,从诸多调查数据中可以看出,商业智能应用实际上并没有像业界预测的那样,产生井喷式的增长。传统的数据库应用包括数据处理和存储等依然在数据库应用中占据较大的比例。简言之,目前还存在诸多因素阻碍商业智能应用在企业开展。巨大的市场潜力,已经吸引MicroStrategy,BusinessObjects,Cognos等不少国际知名的商务智能软件厂商进入我国,还吸引了与其相关方面的分析软件公司如甲骨文、SAP等公司,国内金蝶、用友等厂商也推出了相关产品。国内的商业智能大多应用电信、金融、航空等信息化程度偏高的行业,这些行业无论是在历史数据积累还是在对客户需求的把握程度上,都存在一定的共性被广泛关注。而配方行业由于分析角度的不同和高层重视程度的不够,商业智能的应用还属于摸索阶段。
配方产品分析现状
以食品、酒类、医药、烟草等为例的配方产品已经有了很长的发展历史,但其数据分析还处于较低的层面,企业信息化水平也是相对薄弱。其中主要原因一是这些都是传统行业,对配方改变需求不大,甚至有的以祖传配方为宝;二是配方非常复杂,配方内在的数据关系很难用有效的数学模型来表现。
目前配方行业的数据分析主要通过使用通用的统计及数据分析软件,如SPSS、WEKA、SAS、MATLAB等,针对特定的分析需求进行单独的数据分析。这种分析方法有许多不足:它需要专业的统计分析人员来做,其结果也需要专业人员来解释;而且这种分析方法的分析结果得不到系统的保存和管理,存在大量精力浪费;有时很难从业务数据库中构造出需要的数据格式;分析结果不系统,很难从产品的全局把握。以上种种问题表明,要对配方数据做更好的研究和分析,必须建立专门的配方辅助设计系统,针对行业内的主要问题,进行专业化设计,专业化分析,并对分析的结果进行保存,以便随时利用。
1.3 本文主要工作及论文结构
本文主要工作
本文在分析商业智能概念及其关键技术的基础上,以卷烟配方辅助设计系统为例,并以SQLSERVER 2005商业智能工具为平台,阐述了商业智能技术在配方辅助系统中的应用,以及建立配方行业商业智能系统的系统设计和流程。包括配方产品的主要业务分析和维度建模;系统的需求分析、数据仓库逻辑设计以及物理设计;数据仓库的数据集加载以及数据抽取、转换、加载(ETL)系统的建立; OLAP多维数据集的设计和分析,包括建立事实表、维度表及其关系;数据挖掘高级分析的挖掘结构和模型建立和部署等主要商业智能技术。最后展示了卷烟配方辅助系统的应用效果,介绍了各种数据分析方法的使用,以及多种商业智能前端展示技术,充分展示了配方分析的工具和方法。本论文所述卷烟配方辅助系统是来自具体的企业级应用项目,在该项目中,作者本人参与了商业智能模块的设计和开发,重点是对ETL数据转变包的编写以及对数据挖掘算法的使用和模型调用等工作。
第二章商业智能及其关键技术
2.1 商业智能概述
商业智能的概念
Gartner Group与1996年最早提出商业智能(Business Intelligence)的概念,当时将商业智能定义为一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。
商业智能以数据库技术为支撑,包括数据提取、转换和加载(ETL),联机分析处理、数据挖掘和商业模型等,其发展先后经历了事务处理系统(TPS)、高级管理人员信息系统(EIS)、管理信息系统(MIS)以及决策支持系统(DSS)等阶段,最终成为企业商业智能。
对商业智能目前还没有准确的定义,不同的组织给出了不同的理解。Data Warehouse Institute认为“商业智能是将数据转换成知识并将知识应用到商业行为上的一个过程"。
GartnerGroup认为“商业智能是将数据转换成信息的过程,然后通过发现将信息转化为知识"。
IBM则认为商业智能是指一种能力:通过智能地使用数据财产来制定更好的商务决策。
以上从不同的角度给出了商业智能的定义,但都没有阐述其本质。商业智能被认为是将数据转化为知识,帮助企业做出业务决策的工具。为此目的,引需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。从技术上讲商业智能只是以上技术的综合运用,所以商业智能应该被看成是一种解决方案,商业智能的关键是从许多不同的企业运作系统数据库中提取出有用的数据并经过抽取(Extraction)、转换(Transformation)和装载(Load),合并到企业数据仓库里,从而得到企业数据仓库的总体视图,并利用适当的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理,将数据展示出的知识展现给决策者,决策过程提供支持。
商业智能的研究内容
商业智能的研究主要集中在三个方面:支撑技术的研究、体系结构的研究、应用系统的研究。
(1)支撑技术的研究。商业智能是一个跨学科领域,主要借助两大学科的成果,一是计算机技术,其中关键是数据仓库技术和数据分析以及数据挖掘技术;另一个是企业管理方面的进展。计算机技术为商业智能系统能够提供技术支撑;企业管理理论为商业智能系统提供业务动力。
(2)体系结构的研究。一般认为商业智能系统主要包括数据预处理、建立数据仓库、数据分析及数据展现四个主要阶段,而数据仓库、OLAP和数据挖掘技术是商业智能的三大关键技术。一般认为商业智能(BI)系统的架构如图2-1所示。
(3)应用系统的研究。各个应用领域所面临的决策问题的分析是应用系统的研究的重点。商业智能被应用到企业运营过程的各个领域,并且已经形成其特有体系。对一般企业来说,商业智能可以实现以下作用:帮助企业了解本身的运营推动力和异常情况,协助用户清楚产品未来趋势;衡量绩效指标,追踪并管理企业运行的关键性能指标;改善和加强客户关系;掌握各种商务信息挖掘利润增长点。
商业智能的实施步骤
商业智能系统的实旌涉及企业运作管理、信息系统、数据仓库、业务数据分析、数据挖掘等知识。即需要选择合适的商业智能工具,还必须按照正确的步骤实施,商业智能项目可分为以下步骤。
(1)需求分析:需求分析是商业智能实施的第一步,必须明确定义企业对商业智能的期望和需求,包括分析的主题,查看的角度(维度),业务需求和用户的要求等。
(2)数据仓库建模:通过需求分析,将企业中的数据按照主题归类,建立企业数据仓库的逻辑模型和物理模型,并设计Bl系统的架构。
(3)数据抽取:必须将数据从业务数据库加载到数据仓库中, 并在加载过程中进行转换、清洗,以保证数据的正确性和可用性。
(4)业务系统的开发:主要是根据业务需求,对数据仓库中的数据进行各种数据分析和展示,主要包括多维数据OLAP分析和数据挖掘,以及建立商业智能分析报表系统及门户。
(5)系统改进和完善: 根据系统使用情况和用户反馈信息,对商业智能系统按照上述步骤对系统进行重构或完善。
商业智能的发展趋势从应用和技术需求上看,商业智能的发展趋势可以归纳为以下方面。功能上具有可配置性、灵活性、可变化性。BI系统的使用范围从特定部门到企业所有用户,其业务多样化,需求格式不同,展示方式也各有变化,对BI系统在配置和灵活上提出了要求。
解决方案更开放、可扩展、可定制。BI系统在原有方案基础,根据企业的独特需求,增加个性化设置的接口和扩展特性,使系统更加灵活而且扩大了使用范围。
从单独的商业智能向嵌入式商业智能发展。即把商业智能组件嵌入到企业现有的应用系统中,使事务处理系统具有商业智能的分析特性。如SAP的ERP就
嵌套了Business Objiect的商业智能产品,其它公司也有类似的合并,这是商业智能应用的一大趋势。
从传统功能向增强型功能转变。商业智能增强功能是相对于SOL查询来说的,而企业建模、多维数据处理、数据挖掘以及数据预测等功能可以提高系统的可用性和智能性,通常被看作BI系统的增强功能。
从市场前景来看,商业智能将面临BI提供商的合并;从战略型商业智能向操作性或实时性商业智能转换;以及更加智能和成熟的分析工具和展现工具等改变。
2.2 数据仓库
数据仓库是商业智能系统的基础,以往的数据库系统主要用于事务处理,很难或无法实现分析处理。近年来,越来越多的数据分析与决策信息支持在被企业所重视,数据仓库技术应运而生。
数据仓库的定义
目前对于数据仓库还没有统一的定义,被称为数据仓库之父的BillInmon在其著作《(Building the Data Warehouse))一书中给出的定义被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non.Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
可以从两个层面对数据仓库的概念进行理解,首先数据仓库是面向分析处理的,主要用来支持决策制定;再者数据仓库包含历史数据,是对多个异构的数据源数据按照主题的集成,它的数据相对固定,不会经常改动。
数据仓库的特点
面向主题、集成、相对稳定、反映历史变化是对数据仓库的定义,也是对数据仓库特点的描述,下面分别解释它们的含义。
(1)面向主题的:数据仓库的数据都是按照一定的业务主题进行组织的,面向主题体现在数据仓库的建设中,而且还包含在业务数据分析和存储上。
(2)集成的:数据仓库中的数据来自各个不同的分散数据库中,它并不是对源数据库数据的简单拷贝,而是按照划分好的主题和数据分析要求,经过数据抽取、清理、汇总和整理等步骤,消除源数据中的错误和不一致数据,保证数据仓库中数据的正确性和可用性,所以它是整合集成的。
(3)相对稳定的:数据仓库的稳定性体现在它的非易失性上,由于数据仓库是面向分析的,其中的数据是从业务数据中加载过来的历史数据,所进行的主要操作是查询和分析,供决策分析使用,所以其修改和删除操作很少,只需要定期的增量加载,所以具有相对稳定特征。
(4)反映历史变化:数据仓库必须能够不断地捕捉业务系统中的变化数据,记录企业生产过程的各个阶段的信息,以满足决策分析的需要,所以必须实时地把新变化的业务数据追加到数据仓库中去,通过数据随时问变化的研究和分析,可以对企业的发展历程和未来趋势做出定量分析和预测。
可见数据仓库与业务数据库的不同之处体现在:数据库是面向事务的设计,数仓库是面向主题设计的;数据库一般存储在线交易数据,数据仓库存储的一般是历史数据; 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计; 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
数据仓库与BI
关于数据仓库和商业智能的关系,在业界还存在一些分歧。有人从数据仓库系统的角度考虑,认为数据仓库包含了从原始数据提取到用于见到的软件和应的所有内容。它和商业智能的创建步骤和目的都是一致的,它们没有本质的区别,可以看作是一回事。还有人从静态的角度看待数据仓库,认为数据仓库仅仅是集中式的高度规范化的数据存储,它只是为商业智能提供数据支持。不管是数据仓库还是商业智能,都是应业务分析需要而产生的,它们都不可能脱离业务逻辑分析和业务维度分析而存在。两者是相互存在,互为条件的。不存在脱离商业智能分析的数据仓库,也不存在没有数据仓库支持的商业智能。如果从商业智能的角度考虑,通常认为数据仓库为商业智能的一部分,它和联机分析处理以及数据挖掘被定义为商业智能的三个关键技术。从这个角度看,在商业智能系统中所指的数据仓库,是数据仓库构建和填充的过程,没有包括其分析功能,它为商业智能系统提供数据基础。
2.3 数据抽取、转换和加载(ETL)
ETL概念及作用
ETL是数据抽取(Extract)、转换(Transform)、装载(Load)的缩写,是完成数据从数据源向目标数据仓库转化的过程,抽取是将数据从各种原始的业务系统中读取出来,这是所有工作的前提。转换是按照预先设计好的规则将抽取的数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。装载是将转换完的数据按计划增量或全部的导入到数据仓库中。ETL是数据仓库、数据挖掘以及商业智能等技术的基石。
ETL是Bl/DW(Business Intelligence)的核心和灵魂,它在商业智能系统中占据举足轻重的作用。在整个BI项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%。可见ETL的重要性,ETL设计的正确性和合理性,直接影响整个BI项目的效率和质量。
数据清洗和转换
ETL过程中最复杂的是数据清洗和转换,它通常是与业务需要和后期的数据分析和数据挖掘直接相关的,也是BI项目中资源密集程度最高的步骤。数据清洗的目的是除去数据中的“噪声(noise)”和不相关的信息。数据转换的目的是将源数据的数据值与类型转换为同一的格式。数据清洗和转换通常包括以下处理。
数据类型的转换:这是数据转换中最简单的任务,由需要通常将布尔类型转换为整数类型;或连续的数据类型根据一定原则转变为离散的值;对数据进行归一化等。
数据分组:有时可能有许多不同的值(状态)出现在离散列中,为了减少模型的复杂性需要把这些值分组,例如职业可能有几十种不同的值,如软件工程师、电子工程师、硬件工程师、顾问等,我们可以用一个“工程师’’来对其进行归纳,以减少模型的复杂度。
数据聚集:聚集计算的结果是根据用户可能的查询预先计算好的汇总数据。比如希望通过每个客户的详细通话记录对客户进行细分,派生出呼叫次数和平均通话时间等属性列。
离群点的处理:离群点称为孤立点,是数据集中的异常事例,这些事例是少数的情况,但却影响一般数据分析模型的准确性,需要对它们单独进行处理。通常情况是直接删除这些孤立点,对正常数据进行建模。但有时候对这些点的分析却有非常重要的意义,比如信用卡欺诈检测和网络入侵检测等。
缺失值处理:从不同数据源集成过来的数据,由于多方面原因存在很多的缺失的数据,这些空值的存在严重影响了正常的数据分析工作,必须对其进行处理。目前有一些方法来处理这种问题,利用平均值代替或者用常见的值代替或者直接产出带空值的记录,无论使用怎么的方法,都必须看实际业务对数据的要求和对模型准确性的要求程度。
还有其它的数据清洗和转换任务,在具体操作中,我们需要使用相应的工具来解决业务问题,确保数据的正确性及可用性。
ETL的挑战
ETL系统是一个复杂的系统工程,虽然ETL已经进入实用阶段,但还有许多阻碍其应用的情况。主要体现在异构数据源的结构差别和数据源数据质量方面。ETL的各个数据源位于不同的网络和操作系统,在数据格式定义,数据结构和接口方面都存在很大差异,给数据提取工作带来很多的麻烦。而且现有不同数据库系统存在无法解决的脏数据,包括命名格式不规范,滥用缩写词、惯用语、数据录入错误、数据重复、数据丢失、单位尺度不一致等。其中对数据集成和清洗影响最大的是以下问题。
(1)数据冗余不一致。数据库系统设计时可能从方便或效率方面的考虑,将一种数据分别保存在不同的地方别进行维护,数据的修改得不到及时的反馈和统一,造成了数据之间的不一致,及增加了数据冗余度,也很难分辨数据的正误。
(2)数据关联错误。由于数据库设计的不合理,很多情况下会存在数据之间的关联和依赖,包括属性关联即两个属性分别可以由对方推导计算出来,或实体关联即实体间使用关联属性来关联连接。这种设计方式会产生数据之间的不一致、实体关联性丢失甚至出现实体关联错误。
(3)数据本身错误。由于在数据库设计时没有进行数据的约束设计,或者用户输入数据时的个人疏忽等原因造成数据源中存在不满足要求的数据以上问题给ETL的设计和实施增加了不同程度的困难,有时只有牺牲数据的准确性来达到系统效率和项目进度的要求。解决这些问题,还需要加强企业工作过程的规范化管理,改善企业的数据库结构等,随着企业信息化水平的提高,这些困扰ETL实施的问题会逐渐得到改善和解决。
2.4 联机分析处理(OLAP)
OLAP的理解
OLAP是Online Analytic Process(联机分析处理)的缩写,E.ECodd于1 993年首次提出这个概念。从字面上看OLAP是对联机数据访问和分析,它是为了满足更高效地进行多维分析的需求而产生的。OLAP的主要功能是根据用户所选择的分析,从多个角度(维)度对信息进行快速、一致、稳定地交互访问,使用户可以在短时间内从各种不同的角度审视业务的经营情况。OLAP是一种技术,它最大的特点是其机动性和快速性。OLAP技术是弥补关系数据库在统计及综合查询分析方面的不足,迎合人们对数据的复杂查询和对于数据分类别及层次等高级分析需求而产生的,能在短时间内响应非专业人员的复杂查询。可以利用OLM)技术从多种角度对业务数据进行多方面的汇总统计计算,还可以利用数据挖掘技术自动发现其中隐含的有用理解了OLAP与OLTP的区别,也就对OLAP的特点,功能和使用方式有了感性的认识,OLAP作为一种分析和存储技术,表现出它独特的优势。随着数据仓库的发展,数据仓库(DW)系统正成为新的决策管理系统解决方案。DW系统以OLAP为核心,但包括更为广泛的内容。
OLAP操作
OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它展现在用户面前的是一幅幅多维视图,它的技术核心是“维"这个概念。0LAP的多维分析操作有钻取、切片和切块以及旋转等。钻取是在维的层次上进行向上或向下的查看来改变分析粒度的查询。它包括向下钻取(Drill.down)和向上钻取(Drill.up)/上卷(Roll.up)。Drill.up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而Drill—down则相反,它从汇总数据深入到细节数据进行观察或增加新维。切片和切块是在先固定一些维度上选择的属性值,然后查看度量值在其它维度上的变化。如果其它的维有一个则是切片;有两个以上则是切块。旋转是变换维的显示位置,即在表格中重新安排维的放置。
OLAP的分类
OLAP是以数据存在为前提的,按照数据的存储格式可以分为以下几种。
(1)关系OLAP又称ROLAP使用关系或扩充关系DBMS存放并管理数据仓库,采用基于稀疏矩阵表示方法的星形结构或雪花结构存储多维数据,数据检索比MOLAP低效。
(2)多维OLAP又称MOLAP是基于多维数据库来实现的,其数据存储采用多维方阵或矩阵方式,数据检索高效,是为直接支持多维查询分析处理而设计的结构。
(3)混合OLAP又称HOLAP是结合ROLAP和MOLAP技术,在MOLAP立方体中存储高级别的聚集,在ROLAP中存储低级别的聚集。
(4)桌面OLAP指没有自己的数据存储库,把用户的查询翻译为对数据源的查询,然后再把结果合成返回给用户。
(5)客户OLAP是相对于Server OLAP而言的,客户OLAP把部分数据下载到本地,为用户提供本地的多维分析。
在商业智能系统中都是在数据仓库基础上建立OLAP,所以一般是对关系OLAP,多维OLAP和混合OLAP的讨论和使用。
2.5 数据挖掘
数据挖掘的定义
关于数据挖掘(Date Mining),目前没有统一的定义,不同的学者或机构按照自己的理解分别给出不同的说法。简单的说,数据挖掘就是指从大量数据中提取或“挖掘"知识。我们拥有海量的数据,却苦于信息缺乏,数据挖掘借用从矿石或沙子中挖掘黄金之意,是指从大量数据中自动地发现有趣的模式和有价值的信息,其中数据可以存放在数据库、数据仓库或者其它信息系统中有价值的信息的过程。
与数据挖掘关系密切的的一词是数据中的知识发现即KDD(KnowledgeDiscovery in Database),它是从大量的、随机的、有噪声的、不完全的、模糊的数据中,提取潜在的有用的信息和知识,这些知识是隐藏在其中的规律,不容易被人发现和识别㈨。有许多文献把数据挖掘和IED视为同义词,认为它们是一回事,但大多数人支持数据挖掘是知识发现过程的的一个基本步骤这样的说法。知识发现是将未加工的数据转换为有用信息的整个过程,它包括一些列的转换步骤,从数据的预处理到数据挖掘结果的后处理。图2—2给出了知识发现的过程及它与数据挖掘的关系。
在商业智能系统中谈数据挖掘,是指在以整理好的数据仓库基础进行的特定业务数据的挖掘,它注重数据挖掘算法的应用和挖掘结构的展示。由于是在数据仓库的基础上,还注重算法的效率和扫描数据库次数等方面。数据挖掘技术涉及到数据库技术、机器学习、统计分析、可视化、信息科学等多种技术。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。