如何理解非结构化数据

2012-03-20 11:30:25 来源：TechTarget中国抢沙发

2012-03-20 11:30:25 来源：TechTarget中国

摘要：来自研究机构Third Nature公司的总裁Mark Madsen为我们解读了他对于非结构化数据的理解。Madsen表示他非常不喜欢“非结构化这个词，如果要形容这部分数据的话，他会选择非模式化。
关键词：大数据非结构化数据

　　在近期举行的数据仓库协会管理者峰会中，来自研究机构Third Nature公司的总裁Mark Madsen为我们解读了他对于非结构化数据的理解。Madsen表示他非常不喜欢“非结构化（Unstructured）”这个词，如果要形容这部分数据的话，他会选择非模式化（unmodeled）。

　　在大会上，Madsen并没有就大数据进行深层次的探讨，因此记者在会后对Madsen进行了采访，让他来谈一谈他眼中的大数据。

　　我们在定义大数据的时候，往往会使用三个V，即volume、velocity和variety。您认为这样的定义是否合适？

　　Mark Madsen：当我们看这三个V的时候，我更倾向于Cloudera的观点，大数据需要同时具备这三个元素。如果你的数据类型很多或者流动速度很快，但是数据量并不大的时候，我认为这对于任何一个企业来说都不是什么难题。只有当你的数据量达到一定的级别之后，你才会感受到数据带给你的压力。

　　但是真正的问题并不仅仅局限在这三个V上，或者说并不仅仅是数据本身的问题，我们还应该关注企业的业务部门如何来使用这些数据。比如有多少的流程会参与进来，它们从哪里来，要到哪里去。对于我来说，它就是一个分解成许多参数的复杂度问题。

　　你曾经说过非结构化数据的说法其实是错误的，你对此是如何理解的？

　　Madsen：从学术定义角度来说，非结构化指的是完全没有结构的事物。而从字面上来说，它又是带有结构的，只不过它不一定是一个传统意义上的结构。我认为非结构化这个说法是源自于文本以及信息抽取，比如姓名、公司和地点等，然后你就可以记录、总结并提取一些隐藏的含义。非结构化对于数据工作者来说，指的是那些无法放到表中的数据。

　　那么如果不用非结构化，该怎样定义这些数据呢？

　　Madsen：我并不喜欢非结构化这个词，我更倾向于使用非模式化。我认为无论是从数据库角度来看，还是文档主体，它都是非模式化的。有各种各样的学术研究专注于推断一个数据集的结构，以确定如何最好地呈现它。但要试图让人们接受一个更精确的术语，我认为这是非常愚蠢的，没有意义的。我这样说是想让人们可以开阔视野来讨论不同的数据类型以及如何处理这些数据。这就像是让他们先停下来想一想，否则你就会把点击流、博客日志、文档文件以及日志数据等全部归为非结构化数据。事实上，这些信息的结构是由许多细微的不同点的，我们不能将其一概而论。

　　不管是非结构化还是非模式化，我们现在都在讨论社交智能这个话题。对于社交媒体来说，是否真的有价值值得我们去挖掘？

　　Madsen：我希望是这样，而且我现在做的许多项目都和社交媒体有关。Facebook就是一个很好的例子，人们有Facebook粉丝页，于是就更倾向于简单的度量而不是深度的分析。人们收集来许多简单的数据并在未来会使用，那就会出现问题。

　　一般的情况下，人们是怎么做的？

　　Madsen：当你登录Facebook，你就会有一个粉丝页，你可以知道所有的粉丝都是谁，你会收集到他们的身份、资料，比如年龄，性别等等。现在有许多方式可以实现这一目的，比如你可以根据关键字来做搜索，搜索到你的品牌和公司的关键字，然后看看人们对你的评价，对你产品的使用情况，并根据统计学原理来进行分析。

　　那这样的信息对业务的影响是怎样的？

　　Madsen：当我给一家化妆品公司做分析时，得出的结论是客户主要分布在35-50岁女性的人群中，而且通常是中产阶级以上。但是从Twitter上的分析来看，他们的客户主要是一些年轻女性，而且并不是中产阶级居多。因为她们是Twitter的使用群体。如果你你把Twitter上的包括口碑和产品信息收集起来进行分析，那么就会得到一个错误的样本，这样的话你的市场定位就偏离了最核心的客户群。

　　这是一个非常典型的例子。我有些惊讶，人们在社交媒体分析的时代，会放弃过去几十年来积累的经验，这些经验是无数市场调查和研究得出的结果。这也许就是新事物诞生所带来的阵痛，新鲜的事物往往能够掩盖最明显的事实。

　　文本数据为什么很难进行分析？

　　Madsen：你需要让机器能够读懂你的文档信息，现在还处在早期阶段。我们知道如何去处理语言，但是大多数还是具有初级的统计性质的。真正理解事务的内涵，这需要一系列的技术在背后，包括舆情分析。比如简单的讽刺，这些信息你和我也许都能够读懂，但机器并不会，其他的也是如此。只有在这一基础上，才能够对文本进行分析，因此我们还是需要很强的技术能力才能实现。

　　那这样的数据会不会在未来成为业务的标准？

　　Madsen：这种方式正在建立。我认为它不过是另外一种数据集合，整个数据谜题的另外一部分。针对交易处理应用，我们能够解决数据捕获和数据存储的问题，但是我们还无法捕获网站或者呼叫中心所有的交互数据。其中一部分原因是因为我们的技术还达不到，一部分原因是数据本身的复杂度，还有一部分原因是我们不知道如何利用这些数据。在某种程度上，这是自动化监控组合的最后一部分，也是我们目前重点关注的。在未来它还会得到更多的发展，最终我们会了解如何去使用它管理它。
第三十八届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：zhangyexi

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。