首页 > 大数据 > 正文

数据挖掘之Intelligent Miner

2010-10-22 13:00:52  来源:数据仓库之路

摘要:IBM使用它在美国(例如Waston Research、Almaden Rese)和世界上的(例如:在法国的EC八M,在德国的BobUngen)研究实验室的庞大资源致力于开发数据挖掘方案已有许多年了。
关键词: IBM 数据挖掘 B
IBM使用它在美国(例如Waston Research、Almaden Rese)和世界上的(例如:在法国的EC八M,在德国的BobUngen)研究实验室的庞大资源致力于开发数据挖掘方案已有许多年了。这些努力的结果是一套包含了在人工智能、机器学习、语言分析和知识勘测领域的应用和基础研究成果在内的复杂销软件方案。

  在这里讨论的产品是取Intelengent Miner for data。

  IBM的Inten1igent Miner正在竞争数据挖掘工具市场的领导地位,它提供了以下功能:

  • 最广泛的数据挖掘技术和算法集之一。
  • 在数据规模和计算性能方面具有非常高的可伸缩性;实际上,此产品在IBM SP大规模并行硬件系统上运行是最佳的。此产品可在许多IBM和非IBM的平台上运行。
  • 具有大量能被用来开发用户化数据挖掘应用程序的应用程序编程接口:所有的数据挖掘引擎和数据操纵函数能通过共享C什库被访问。

  Intel1igent Miner支持分类、预测、关联规则产生、聚类、顺序模式侦测和时间序列分析的算法。Intelligent Miner通过使用复杂的数据可视化技术和一个健壮的基于Java的用户界面(主要面向有经验的用户)来增强它的可用性。In阑1igent LEner支持DB2关系数据库管理系统,并集成了大量复杂的数据操纵函数。

  Intelligent Miner是一个客户/服务器系统,客户机用于控制用户界面和数据可视化函数,而数据挖掘和数据操纵引擎是在服务器上。服务器组件能被下列平台所支持:运行AIX的BBMRS/6000和IBMSP、运行MVS的赐MS/390和IBMAS/400。客户机组件是在朋ndows95、W1ndowsNT、mM.os/2和运行AIX的IBMRS/6删上。

  数据访问、操纵和预处理:Intelligent Miner支持展开文件,并提供对DB2的直接访问。后者允许用户直接从关系表构造出勘测和预测模型。DB2服务器被用来向产品传递数据操纵和转换能力,并可充当通向其它关系数据源的途径。如果二进制文件被使用,DB2的数据操纵功能不可用,并且要预处理和变形数据的话需要额外的设施或开发努力。

  然而,所有的模型结果都被存储在二进制文件中。加以1igentMiner是使用一个叫MiningBase的文件结构。Mining Base实质上是一个定义了被产品所使用的所有文件格式的元数据文件。

  Intelligent Miner基于DB2的数据操纵能力包括以下方面:

  • 自定义集合和计算。
  • 大写字母到小写字母的转换。
  • 过滤无关系记录和缺值记录。
  • 过滤域。
  • 过滤使用数值集的记录。
  • 归类记录与合并数据源。
  • 把多种域转变为一系列二进制域(旋转)。
  • 把缺失值改为密码。
  • 数据取样能力——创建随机样本。
  • 运行SQLo

  数据挖掘技术、算法和应用程序:Intelligent Miner支持包括Kohonen特征图的神经元网络、时间序列模式、决策树、聚类、关联规则、顺序模式和基于半径的函数。大多数算法是由IBM研究所研发出的,是IBM的专有技术,并只存在于IntelligentMiner中。

  • 神经元网络:包括两个算法L—一用作分类的向后传播网络和Konen特征图。Kohonen特征图是一种把记录划分成相似簇的非监督学习技术。
  • 决策树:这是CAU算法的二种变种,用以产生一个分类模型和处理绝对和连续数据。
  • 时间序列模式:此算法是由IBM A11;aden研究所研发出的:它被用作在过滤噪声时发现时间序列的模式。
  • 聚类:Intelligent Miner提供了按记录的相似分数(相似于以前讨论过的KNN算法)聚类记录的统计学聚类算法。
  • 关联/p顷序模式规则:此算法也是由IBM刘maden研究所研发出的。它的独特特征是为一个事务文件的项发现关联规则的能力以及发现包括复合规则和层次规则在内的全部规则的能力。在一个标志时间的事务文件中,此算法能侦测出用以分析顾客购买行为和市场构成的顺序模式。
  • 基于半径的函数:此算法通过一个依赖变量与记录中其它域的值的关系估计它的值;此技术被用在一个连续值预测方面。

  Intelligent Miner使用各种各样的算法以支持大量分析,其中包括在交易中(市场分析)对关联训帧序模式的勘测、时间序列(股票市场分析)、顾客分类/剖析、聚类和预测值。

  使用工具:Intelligent Miner为用户提供了大量用来具体定义每个数据挖掘技术的高级参数,例如:最小支持度和置信度因素(关联测顿序模式)、期望的准确率(神经元网络)以及簇的最大和期望的数量(聚类)。

  分类算法支持训练、测试和应用模式,并提供一个无秩序矩阵作为一个评估工具。别的评估方法正在开发中。

  应用模式能使用外部数据(不是取样数据)来配置型。IntelligentMiner提供了一个广泛的程序库来帮助用户建立和应用模型。 ‘

  算法的丰富以及用户化选项的多样使Inte勋gent M1ner的用户界面更适合于一个有经验的用户而不是一个初学者。

  结论:总的来说,IntelligentMiner(ford则是市场上最强大和最有可伸缩性的工具之一。公布的对用户进行调查得到的基准测试显示工具总的性能良好并且在不同的应用环境下一些算法比别的算法运行得好。IBM已投入大量财力以把此工具定位在为企业规模的数据挖掘的一个主要解决方案。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:lyre

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。