2010-07-13 17:13:22 来源:万方数据
1 引 言
本文探讨了数据挖掘技术在用户流失分析中的应用,运用ID3算法以及Apriori算法,探讨了各种影响用户流失的因素分析。
2 数据挖掘概述
数据挖掘(Data Mining,DM),是指从大型数据库或数据仓库的大量数据中提取隐含的,未知的、非平凡的及有潜在应用价值的信息或模式。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。
3 WEKA软件介绍
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),其作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类,关联规则以及在新的交互式界面上的可视化。
首先将Excel的XLS文件可以让多个二维表格放到不同的工作表(Sheet)中,我们只能把每个工作表存成不同的CSV文件。打开一个XLS文件并切换到需要转换的工作表,另存为CSV类型,点“确定”、“是”忽略提示即可完成操作。
再将CSV转换为ARFF格式。最迅捷的办法是使用WEKA所带的命令行工具。运行WEKA的主程序,出现GUI后可以点击下方按钮进入相应的模块。我们点击进入“Simple CLI”模块提供的命令行功能。在新窗口的最下方(上方是不能写字的)输入框写上java weka.core.converters.CSVLoader filename.CSV>filename.arff即可完成转换。或者进入“Exploer”模块,从上方的按钮中打开CSV文件然后另存为ARFF文件亦可。
分类算法我们打算对前面的“bank-data”数据作分类规则的分析。用“Explorer”打开“bankdatafinal.arff”后,切换到“Classify”选项卡,点击“Choose”选项卡在其中TREES分支下选择ID3,点击ID3设置参数后点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果。
4 数据挖掘技术在用户流失分析模型中的应用
4.1 用户流失
用户流失(Customer Churn)是指用户不再重复购买、或终止原先使用的服务。由于各种因素的不确定性和市场不断的增长以及一些竞争对手的存在,很多用户不断地从一个供应商转向另一个供应商只是为了求得更低的费用以及得到更好的服务,这种用户流失在许多企业中是普遍存在的问题。
4.2 构建用户分类模型
4.2.1 建立用户数据库
在用户信息中包含有很多的属性,我们通过属性归纳方法去掉一些不相关或弱相关属性,最后将需要的信息抽取成能被数据挖掘算法所利用的表格,形成决策树的训练集。
4.2.2 构造决策树,得出结论
对图1进行分析,表中年龄和年收入均为连续数值型数据,而ID3算法涉及的是离散型数据。因此,在建立决策树时,需要对连续型数据进行离散化处理。
图1
对图2的用户信息进行转换,将转换后的数据表再次转换成.arff格式的文件,在WEKA软件中进行分析,并用该软件进行分析得出决策树如下。
图2
从决策树可以很直观的看出各个因素对用户流失的影响情况,进而可以做出规划和预测,为公司制定营销政策提供依据:
(1)当工作地区是在城市里的用户一般都继续使用原先公司的业务,故城市的公司在提供更好更优质的服务来继续保持这些原有用户的同时,也说明公司需要把精力更多的放在那些用户容易流失的地区,如县,乡等。
(2)当工作地区是在县里的,如果使用的是C业务的中年用户,一般都退订。可能因为用户随着年龄的增长,觉得C业务的很多功能太时尚和娱乐化,因此会选择其他适合自己的业务。
(3)当工作地区是在县里的,如果使用的是C业务的青年用户,一般都停止使用,可能因为学生外出求学或外地打工者离开本地引起的。
(4)当工作地区是在县里的,如果使用的是D业务的中年用户一般都停机。这可能与D业务资费较高有关系,故公司需进一步审视自己的业务,以调整资费或提高业务质量来防止用户的流失。
(5)当工作地区是在县里的,如果使用的是E业务的青年用户一般都继续使用原业务,这可能与现代青年注重身体健康有关。也说明该公司对环保方面有深刻理解。
(6)当工作地区是在县里的,如果用户使用的业务是A业务或B业务,一般都会继续使用。说明该公司的这两种服务好,适合的人群广泛。
(7)当工作地区是在乡里的,用户一般都选择退订,说明在该地区,该公司需尽快完善自己的服务,以提高用户的忠诚度。
4.3 利用Apriori算法分析用户个人年收入对其选择业务类型的影响
4.3.1 构建用户信息数据库,对用户数据进行预处理
从用户信息数据库中提取25条信息构建信息提取表将上表数据进行离散化处理,具体操作为:将用户个人年收入在6万以上的评为高;将个人年收入在4万到6万之间的评为中;将个人年收入在2万到4万之间的评为一般,将个人年收入在2万以下的评为差。将用户的业务类型分为A业务、B业务、C业务、D业务四种类型。
4.3.2 运用Apriori算法对数据进行分析,得出结果并转换成适合Apriori算法处理的事务数据库形式。设定最小支持度为:0.04,设定最小置信度为:0.5,则使用数据挖掘软件WEKA软件分析数据得到如图3。
图3
以上结果表明:用户的个人年收入对其选择公司的业务类型有很大影响。一般来说,年收入为中或高的用户群倾向于使用A业务;年收入为一般或低的用户则选择B业务或C业务。由此可见,相关业务公司制定针对不同人群的业务类型是完全有必要的。
5 结束语
数据挖掘作为种新兴的数据分析技术,其研究取得了令人瞩目的成就,已经成功地应用到了许多领域。但应该看到仍存在着许多尚未解决的问题,例如数据的预处理、挖掘算法、模式识别和解释、可视化问题等。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。