首页 > 大数据 > 正文

处理非结构化数据必学几招

2008-04-08 08:44:16  来源:IT专家网

摘要:集成企业的文本数据,或者说为了搜索和分析而对这些数据进行预处理,其实现的可能性就非常大。
关键词: 数据库

    现代社会最不缺少的就是信息,而你的服务器里可能已经充满了信息。问题是,要怎么处理这些信息。

    非结构化数据已经存在相当长一段时间了,它出现的时间比计算机诞生的时间还要早。像古埃及的象形文字(升体书)、流传已久的各大宗教经文等等,都早在芯片出现以前就有了。而搜索引擎同样也存在了相当长一段,虽然没有印刷文字的历史那么久远。不过,要说揭开保存在这些非结构化数据里的宝贵信息的秘密,就算是用现在已经非常成熟的搜索引擎,也还没有得到什么理想效果。为什么会这样呢?

    进去的是垃圾,出来的必是废物(Garbage In, Garbage Out)

    对搜索引擎而言,要解开非结构化数据中真正有用的东西,还缺乏一个重要的因素。为了让大家容易理解这个欠缺的因素,这里引用一下IT界里的一句明言“Garbage In, Garbage Out”,简称GIGO,类似于“种瓜得瓜,种豆得豆”的意思,也就是说如果你输入到计算机里的是一些乱七八糟的无用信息,那么计算机输出的结果也是无用的废品,也代表了信息技术最难解决的问题之一,体现了对数据质量的要求。当我们用一个强大的搜索引擎来对基本上未经净化、未经清洗、未经集成的文本数据进行搜索时,会出现什么结果呢?就如上面的明言所示,搜索引擎最后返回给终端用户的结果也是未经清洗和集成的。

    为了使文本搜索变得真正有意义,在执行搜索操作之前,必须把需要对其进行搜索的文本进行集成。如果完成了集成的步骤,那么你输进去的就不再是“垃圾”,而出来的也就不再是“废物”了。

    互联网对垒企业数据

    在互联网上搜索信息的时候,要进行数据清洗(data scrubbing)很难。试图清洗和集成遍布在互联网上的数据基本上是徒劳无益之举,就跟要把整个太平洋的水倒出来的难度差不多。

    但对于企业数据来说,又是另一回事了,原因有二。首先,涉及到企业数据的话,数据量就很有限了——相对于几乎无限的互联网数据而言。其二,和互联网数据不同,几乎所有的企业数据都是和企业的业务相关的。保守而言,互联网上只有很小一部分数据是和任一企业的业务相关的,即使是像IBM这样的规模庞大,经营业务繁杂的企业。

    因此,集成企业的文本数据,或者说为了搜索和分析而对这些数据进行预处理,其实现的可能性就非常大。

    什么样的数据需要集成?

    那么什么样的企业数据才需要进行集成呢?只要用户能想象得到的都可以进行集成,基本上对数据类型没有什么限制。下面为大家列举一些和明显可以进行集成的企业数据类型:

    1)客户资料——与客户沟通有关的数据

    2)安全数据——与事故、检修、维护、授权及其他安全相关的数据

    3)合同数据——与企业具体的合同相关的数据

    4)举证数据——与诉讼过程相关的数据

    5)法规数据——与敏感的企业事件和交易等相关的描述

    数据集成的好处

    集成企业文本数据的重要好处之一就是,这些数据一旦被集成了,就可以输入到数据库被重复使用。换言之,只需要对企业文本数据进行一次集成,就可以被重复用于搜索和分析操作,不管重复利用多好次都没问题。

    通常情况下,企业文本数据集成完毕以后,都会放置到数据仓库中,才能够和其他的结构化数据进行合并。在这个过程中,需要创建一种全新的查询方式。可以把这种查询称为混合查询(hybrid query),因为该查询不仅针对结构化数据也针对非结构化数据。而由此得到的数据仓库就是一个真正的集成数据仓库,其中包含了结构化和非结构化来源的数据。

    客户沟通分析

    为了让大家有一个更直观的认识,我们来举一个应用的例子,这个例子对于企业来说只是众多应用方式中的一种——客户沟通分析。我们知道,对于企业来说,接受来自客户的电子邮件是再正常不过的事情。不过,这些电子邮件一旦被读取完毕,往往就会被放置到类似于收件箱的文档当中,和其他成千上完的电子邮件一样散放其中。问题是档企业需要这些沟通电子邮件时,就很难再从这么多的邮件当中将其找出来了。而这对于将来和客户进行进一步的沟通非常重要。

    为了更好的进行说明,我们来看一个例子,假设我们有一位客户A,他上个月给公司写了一封措词尖锐的电子邮件,内容是关于他的一份订单被搞砸了。这个月,我们的销售员想要给客户A打电话,想要和他开展更多的业务。所以对于这名销售员来说,重要的是,要知道上个月客户A发来了一封投诉邮件。如果我们想要客户A再购买公司的其他新产品,任何近期的直接沟通联系内容都很重要,不管来自客户的沟通还是主动和客户进行的沟通。那么,企业应当考虑如何查找和过滤相关的电子邮件呢?同样的,企业应当考虑如何查找和过滤不相关的邮件呢?

    事实上,如果一旦企业的文本数据已经通过专门用来进行文本集成的集成过程存储到了数据库,这只是非结构化文本数据的很多利用形式之一而已。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。