2013-09-17 10:39:40 来源:机房360
很多人对大数据与BI之间的关系弄混淆了,其实大数据和BI之间有很多对立面。我们在项目实施中一直遵循这一原则。例如:
全量思维。不用抽样建模,再回到DW实施。大数据利用全量数据直接跑,先在大宽表中找到以前靠业务经营选择的字段,即依靠机器学习建规则,再在全局数据中实施。大数据在这个层面首先是基础设施,能够完成以前不能完成的任务。这是大数据的IT属性,Hadoop分布式计算带来的颠覆创新。
个性化。BI面向决策,面向人的干预。输出形式更多的dashboard.report。因此对事实描述更多是基于群体共性,而不是个体刻画。而BI系统需要汇总成宏观统计数据。前者帮助我们深刻的了解每一个用户,适合于精准推荐类营销类问题,回答Howmuchhowstrong的程度类模糊问题;后者帮助决策者掌握宏观统计趋势,适合经营运营指标支撑类问题,准确回答yesorno的统计意义概率问题。
大数据对个体刻画还是BI的群体描述,引发了下面的差异。
InsightorAutomation群体共性的描述获得的Yesorno的问题对于复杂经济现象越来越难回答,维度指标越来越多。某种意义上,BI形成的Insight,因为没有形成闭环干预,而没有发挥作用。大数据强调Automation.淘宝更强调为每一笔网购做自动推荐的生产系统。上面的保险客户流失例子,大数据刻画客户后提供给一线销售,数据服务下沉而不是汇总上报,每一个保险员做微决策微行动,风险小反馈及时。大数据更强调提供自动化工具,而不是统计报告。
反馈和实验方法因为引入了Automation,和记录行为数据,效果更直接及时。例如互联网最多用的ABtesting.Hulu每日上线的测试有200多个,可见测试方法在数据分析中的重要程度。有机会展开谈谈BI和大数据,在这个概念泛滥的大数据热炒时代,各种公司一夜转型大数据,如何辨别小数据和大数据,不仅是技术基础,更重要的是思维方式。
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。