首页 > 大数据 > 正文

浅析数据挖掘的过程

2012-03-14 11:16:49  来源:CIO时代网

摘要:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
关键词: 数据挖掘
    数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

    数据挖掘的过程

    数据挖掘是一个多领域知识交叉的研究与应用领域,设计的领域包括:数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、信息检索、高性能计算等。数据挖掘的过程大致分为:问题定义、数据收集与预处理、数据挖掘实施,以及挖掘结果的解释与评估。

    1.问题定义

    数据挖掘是为了从大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中的第一个也是最重要的一个阶段。在这个过程中,必须明确数据挖掘任务的具体需求,同时确定数据挖掘所需要采用的具体方法。

    2.数据收集与预处理

    这个过程主要包括:数据选择、数据预处理和数据转换。

    数据选择的目的就是确定数据挖掘任务所涉及的操作数据对象(目标数据),也就是根据数据挖掘任务的具体要求,从相关数据源中抽取与挖掘任务相关的数据集。

    数据预处理通常包括消除噪音、遗漏数据处理、消除重复数据、数据类型转换等处理。

    数据转换的主要目的是消减数据集合和特征维数(简称降维),即从初始特征中筛选出真正的与挖掘任务相关的特征,以提高数据挖掘的效率。

    3.数据挖掘的实施

    根据挖掘任务定义及已有的方法(分类、聚类、关联等)选择数据挖掘实施算法。

    4.结果解释与评估

    实施数据挖掘所获得的挖掘结果,需要进行评估分析,以便有效发现有意义的知识模式。因为数据挖掘所获得初始结果中可能存在冗余或者无意义的模式,也可能所获得的模式不满足挖掘任务的需要,这是就需要退回到前面的挖掘阶段,重新选择数据、采用新的数据变换方法、设定新的参数值,甚至换一种数据挖掘算法等。此外还需要对所发现的模式进行可视化,表示将挖掘结果转换为用户易懂的另一种表示方法。

    数据挖掘的实施,仅仅是整个数据挖掘过程的一个步骤。影响数据挖掘质量的两个因素分别是:所采用的数据挖掘方法的有效性;用于数据挖掘的数据质量和数据规模。如果选择的数据集合不合适,或进行了不恰当的转换,就不能获得好的挖掘结果。

    整个数据挖掘是一个不断反馈修正的过程。当用户在挖掘过程中,发现所选择的数据不合适,或使用的挖掘方法无法获得期望结果,则用户就需要重复进行挖掘过程,甚至需要从头开始。

第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:fanwei

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。