首页 > 大数据 > 正文

数据仓库:大量数据引发众多问题

2011-06-28 16:37:42  来源:中国商业智能网

摘要:由大量数据引发的问题有:是否可以预测是一个问题;加载数据是一个问题;整理数据是一个问题;索引数据是一个问题;有效地访问数据是一个问题;发现和管理休眠数据是一个问题......
关键词: 数据仓库

  跟任何一个自尊心很强的 数据仓库开发者谈论时,你都会听到一个关于一个数据库中有大量数据的故事。数据仓库的巨大是因为数据仓库包含了由历史数据、详细数据和各种各样类型的数据组成的数据。这里有一个公式:


  历史×细节×种类 = 大量的数据


  由大量数据引发的问题有:是否可以预测是一个问题;加载数据是一个问题;整理数据是一个问题;索引数据是一个问题;有效地访问数据是一个问题;发现和管理休眠数据是一个问题;数据仓库所需的预算是一个问题;管理不断增长的数据量所需的技术是一个问题。简而言之, 在数据仓库中持有数据对它本身就是一个挑战。


  现在出现了DW 2.0(数据仓库2.0版)。并且在DW 2.0中很天真地建议我们开始尝试在数据仓库中抓取非结构化、文本的数据。让我们做一次快速的计算。估计在企业中文本类的数据约为典型的结构化数据的5到10倍。几乎每一家公司的数据仓库是由结构化的信息构成。那么,让我们做一个分析。目前在我们的企业在结构化数据的管理上存在一个挑战。一旦我们开始添加非结构化的数据到我们的数据仓库,这会使我们今天所面对的挑战升至十倍。那就是我们在这里讨论的吗?


  随着出现在我们面前的大量非结构化数据,数据的存储容量需要变的更大。但是要大多少呢?确实,世界上有大量的非结构化数据,难道所有的数据都要放在硬盘的存储空间上吗?当然是有许多要存储在硬盘上,但的确不是所有的数据都要想方设法存储在硬盘上。


  那么,哪些非结构化数据的不必/不应该存储在硬盘上呢?有很多淘汰工作可以去作:


  本质上有三种类型的邮件:个人电子邮件,垃圾邮件和业务相关的电子邮件。只有业务相关的电子邮件应该设法存入数据仓库。垃圾邮件和个人电子邮件应该被清除。


  结束用语需要被过滤掉。在一些语言中,结束用语占用了40%的文本。


  有些非结构化数据的加工需要割裂文档。其他类型的非结构化数据的加工只需要选择索引。割裂的文档比选择性索引的文档要占用更多的空间。


  一些文件只需要参考他们的元数据。对文件元数据的索引要比对文件的内容等等建立文件要大大地提高效率。


  另一个因素是,非结构化的数据不必设法一次性所有地存入数据仓库。要花几年的时间将所有非结构化的要素归入在一个数据仓库中。


  所以并不是所有非结构化的数据都要设法存入一个数据仓库,当然更不是一次性存入所有。但很多非结构化的数据最终会设法进入到一个数据仓库。如果做一个有根据的猜测,可能以今天的结构化数据仓库乘以三到四倍会是个不错的猜测。对任何人而言那都是一个大量的数据。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:fanwei

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。