首页 > 大数据 > 正文

CCCF专栏数据科学中的“数据智慧”

2016-01-22 13:53:14  来源:36大数据

摘要:在大数据时代,学术界和工业界的大量研究都是关于如何以一种可扩展和高效率的方式对数据进行储存、交换和计算(通过统计方法和算法)。
关键词: 大数据
 
  5.问题转化
 
  如何将第1条中的问题转化成一个与数据相关的统计问题,使之能够很好地回答原始问题呢?有多种转换方式吗?比如,我们可以把问题转换成一个与统计模型有关的预测问题或者统计推断问题吗?在选择模型前,请列出与回答实质性问题相关的每一种转化方式的优点和缺点。
 
  6.可比性
 
  各数据单元是否是可比的,或经过标准化处理后可视为可交换的?苹果和橘子是否被组合在一起了?数据单元是否是相互独立的?两列数据是不是同一个变量的副本?
 
  7.可视化
 
  观察数据(或其子集),制作一维或二维图表,并检验这些数据的统计量。询问数据范围是什么?数据正常吗?是否有缺失值?使用多种颜色和动态图来标明这些问题。是否有意料之外的情况?值得注意的是,我们大脑皮层的30%是用来处理图像的,所以可视化方法在挖掘数据模式和特殊情况时非常有效。在通常情况下,为了找到大数据的模式,在某些模型建立之后使用可视化方法最有用,比如计算残差并进行可视化展示。
 
  8. 随机性
 
  统计推断的概念(比如p值和置信区间)都依赖于随机性。数据中的随机性是什么含义呢?我们要使统计模型的随机性尽可能地明确。哪些领域知识支持统计模型中的随机性描述?一个表现统计模型中随机性的最好例子是因果关系分析中内曼-鲁宾(Neyman-Rubin)的随机分组原理(在AB检验中也会使用)。
 
  9.稳定性
 
  你会使用哪些现有的方法?不同的方法会得出同一个定性的结论吗?举个例子,如果数据单元是可交换的,可以通过添加噪声或二次抽样对数据进行随机扰动(一般来说,应确定二次抽样样本遵守原样本的底层结构,如相关性、聚类特性和异质性,这样二次抽样样本能较好地代表原始数据),这样做得出的结论依然成立吗?我们只相信那些能通过稳定性检验的方法,稳定性检验简单易行,能够抗过度拟合和过多假阳性发现,具有可重复性(要了解关于稳定性重要程度的更多信息,请参看文章“Stability”(http://projecteuclid.org/euclid.bj/1377612862))。
 
  可重复性研究最近在学术界引起了很多关注(请参照《自然》(Nature)特刊(http://www.nature.com/news/reproducibility-1.17552))。《科学》(Science)的主编玛西亚·麦克纳特(Marcia McNutt)指出“实验再现是科学家用以增加结论信度的一种重要方法”。同样,商业和政府实体也应该要求从数据分析中得出的结论在用新的同质数据检验时是可重复的。
 
  10.结果验证
 
  如何知道数据分析做得是不是好呢?衡量标准是什么?可以考虑用其他类型的数据或者先验知识来验证,不过可能需要收集新的数据。
 
  在数据分析时还有许多其他问题要考虑,但我希望上面的这些问题能使你对如何获取“数据智慧”产生一点感觉。作为一个统计学家,这些问题的答案需要在统计学之外获得。要找到可靠的答案,有效的信息源包括“死的”(如科学文献、报告、书籍)和“活的”(如人)。出色的人际交流技能使寻找正确信息源的过程简单许多,即使是在寻求“死的”信息源的过程中也是这样。因此,为了获取充足的有用信息,人际交流技能变得更加重要,因为在我的经验中,知识渊博的人通常是你最好的指路人。

第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:pingxiaoli

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。