首页 > 大数据 > 正文

人工智能如何拯救企业数据目录?

2020-01-19 17:24:01  来源:51CTO

摘要:数据目录允许业务用户快速找到他们所需的信息源——无论是资产数据、公司的地理位置,还是产品和供应商的信息。但是,数据目录只有在保持最新的情况下才能保证有效——而在一个快速变化的行业中,这可能很难做到。
关键词: 人工智能 大数据
“数据目录”这一概念其实并不新鲜,早在大型机时代,企业就开始通过数据目录跟踪、管理其数据资产。数据目录保存的是与数据有关的数据,或称之为元数据。一个企业的数据目录需要记录遍及整个公司的所有数据库和文件,并为其添加描述,例如,如果有可能的话,对文件与文件之间的关系进行记录。

数据目录允许业务用户快速找到他们所需的信息源——无论是资产数据、公司的地理位置,还是产品和供应商的信息。但是,数据目录只有在保持最新的情况下才能保证有效——而在一个快速变化的行业中,这可能很难做到。

人工智能如何拯救企业数据目录?

元数据和数据目录

理解元数据的一个简单方法是用电影来类比。电影存储在广播公司的电影库中,但是您需要保存的不仅仅是电影的标题。重要的是要知道这部电影的时长是多少、里面有哪些演员、谁是导演、谁是编剧、以及关于剧本的信息,所有这些都是关于电影的元数据。

想必大家对数据目录、数据字典和业务术语表等概念也已经大概了解了。业务术语表针对的是业务用户,而数据词典针对的是更懂技术的受众,两者之间存在着细微的差别。不过这三个概念都明显与元数据有关——而且它们都面临着类似的挑战。

企业数据目录的挑战

早期的数据目录主要关注技术数据,比如数据库中有多少字段、字段是基于数字还是基于字符、字段有多长以及它是否有一个有效值范围。后来,该定义被扩展为包括关于业务数据类型的信息,甚至包括该数据的定义,例如什么是“客户”、“产品”或“资产”。

其中有一个关键问题在于,企业数据目录可能会过时。通常情况下,热心的员工会输入关于各种系统和数据库内容的信息,但是却没有什么动力来时刻保证这些信息都是最新的。当新系统部署完成、整个公司被收购且它们的系统被添加到企业投资组合中,或者进行重组时,那些费力输入的描述性元数据会变得过时,以至于不再受信任,然后就不用了。

虽然许多公司花了很多精力来实现有效的目录,但是随着业务的快速变化,很少有公司会持续努力保持企业数据目录完全同步。因此,尽管今年来有几家软件供应商提供了数据目录、数据字典和业务术语表等产品服务,但并未得到真正意义上的广泛普及。

AI和企业数据目录

在数据量和数据种类不断增加的时代,让企业数据目录保持最新,已经变得越来越困难。但是,人工智能等技术的应用,获取可以对此状况有所改变。

机器学习应用程序可以筛选企业数据目录和文件系统,自动收集元数据标记,整个过程类似于谷歌在互联网上搜索网站并进行编目和索引的方式。将此技术应用于数据目录,可以帮助企业实现自动填充和更新——不需要人工干预。这可以解决阻碍企业数据目录的关键问题:需要人工做许多繁复的工作。可以预见,人工智能很可能将帮助数据目录市场蓬勃发展。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:baiyl

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。