如果大数据是原油，那么数据虚拟化就是炼油厂

2017-07-28 09:34:27 来源：企业网D1Net抢沙发

2017-07-28 09:34:27 来源：企业网D1Net

摘要：大数据就像是一个从现代数据景观中涌现出来的丰富的自然资源。
关键词：大数据数据虚拟化

　　大数据就像是一个从现代数据景观中涌现出来的丰富的自然资源。物联网(传感器)，移动设备，社交网络，点击流，网络和开放数据是人们今天目睹的数据激增的重要因素。根据调研机构IDC和硬盘厂商Seagate公司最近合作进行的一项研究显示，到2025年，全球数据预计将增长十倍，将达到163 ZB。

　　数据丰富，但不一定有用，因为其是以原始，没有提炼的形式存在。与任何自然资源一样，“粗”数据必须先进行细化，才能用于生产目的，如设备维护，产品创新，竞争情报，市场营销，数据货币化，以及积极的医疗保健。其细化过程可以纳入数据探索，准备，关联和背景化，标注和注释，统一和整合，以及安全和治理政策的应用。元数据也是一个重要的组成部分，因为它在整体数据细化过程的输入和输出阶段起着重要的作用。

　　数据分析有助于得出无偏见的结论、准确的预测和有见地的决策，这取决于数据的准确性。如果尚未提供分析资料，数据可能会受到碎片，标签和信息丢失的困扰。这些特征在电子健康记录(EHR)中是显而易见的，它们说明了数据精华的挑战。收集和分析EHR数据的障碍是缺乏适当标签和一致语义。

　　电子健康记录(EHR)主要旨在满足患者护理，行政和财务需求。目前尚未考虑数据分析的EHRs的多用途目标可能会造成数据碎片化，需要在将数据提供给临床研究之前进行分析。

　　从共享患者健康记录中构建数据集的另一个挑战是，如何在保健机构之间甚至在同一个保健系统内部共享电子病历。例如，同一所医院的不同部门(例如放射科，整形外科医师和内科医生)可以使用不同的EHR来满足其独特的数据输入要求，文档和订购需求，以及偏好，从而创建数据孤岛。

　　数据安全和隐私也可能是分析监管数据的障碍，例如电子健康记录(EHR)中的数据。克服这一障碍的最佳方法是在精炼过程中应用适当的安全和治理措施。谷歌等公司正在尝试联合学习，努力提高分析能力，同时确保人们的隐私安全。

　　数据细化对于从数据分析中获得可靠的结果是至关重要的，包括有意义的结论，准确的预测和明智的决策。在理想情况下，精炼原始数据以产生完整和有意义的信息的过程如下：

　　· 建立相关语义

　　· 处理数据异常

　　· 建立完整，全面的数据视角

　　· 丰富下游流程的元数据

　　· 处理数据保护，隐私和合规要求

　　数据虚拟化作为数据精炼厂有以下三大优势：

　　(1)炼油厂规模

　　现代分析依赖于无数分散的数据源的数据。经验告诉人们，当数据分布在多个系统时，大数据源并不总是能够复制和重新定位。数据虚拟化提供了大规模的数据源，通过提供替代范例：将数据处理移至数据。换句话说，处理其驻留的数据，并最大限度地减少网络流量。

　　数据虚拟化带来数据精化所需的速度和规模，无需复制或重新配置数据源。它使用逻辑数据架构，使所有底层数据源显示为单个系统。它提供多种优化策略(例如，特定于平台的优化和下推处理)，智能选择一个特定的优化，以及诸如MPP内存中处理的预构建优化库。

　　(2)负责任的数据共享

　　①数据隐私设计

　　由于文化和法律障碍，往往阻碍数据共享，而数据共享已成为大数据分析的主要组成部分。数据隐私法规是令人信服的组织在新项目的每个设计和实施阶段，都要纳入或以其他方式充分考虑数据隐私的。数据虚拟化采用一种中心的方式，降低了遵从日益增多的主动数据隐私规则的成本，并允许通过设计包含数据隐私。

　　数据虚拟化的核心功能是使分布式数据保持在源头，同时通过单一逻辑层将其暴露给消费者。这种方法不需要持续的数据复制。更少的复制就可以减少组织对个人和敏感数据的拷贝，减少数据安全和治理的问题。

　　数据虚拟化还使组织能够轻松创建来自整个组织的数据(例如风险数据)的聚合一致的视图。如图1所示，这些视图可以有选择地共享，同时完全遵守组织的数据访问和隐私策略。

　　图1坚持数据访问和隐私政策

　　②克服信息共享的挑战

　　数据虚拟化克服了以下主要的信息共享挑战：

　　· 不同的数据源。使用数据虚拟化，数据可以快速轻松地集成到无数的内部和外部系统中。

　　· 不同的数据格式。数据虚拟化可以使用不同的技术和协议连接到不同格式的数据。这些复杂性被用户和应用程序所隐藏。

　　· 不同的数据标准。使用查找表或内存映射，数据虚拟化可以集成数据，即使它来自不同的标准。

　　· 不完整的数据。数据虚拟化允许将数据汇集在一起，以实现整体的视图。

　　· 未处理的数据。对聚合数据执行的数据计算(与局部孤立的数据相反)可以提供整个组织的风险的完整视图。

　　· 敏感数据。数据虚拟化提供安全和隐私功能，以便用户只看到允许查看的数据。

　　(3)通用语义模型

　　业务用户的规模各不相同。了解他们是谁(例如数据分析师，电力用户，管理人员或机器)及其所需的数据(例如，预先聚合，预先计算，特定粒度，角色特定或域特定)是必须的。对于特定的机器，正确标记的数据集对于有效的机器学习是至关重要的。在为分析提供数据时，使用业务用户理解的语言也是很重要的。例如账户对于财务中的用户是合适的，而客户则是客户关心的用户的首选项。它支持多个语义，避免强迫用户改变术语本质。

　　图2支持不同的信息粒度

　　由数据虚拟化提供的通用语义模型为整个组织提供了一个通用一致的数据视图。由于不嵌入单个业务智能(BI)工具，语义模型对多个BI工具是通用的，几乎可以访问任何数据源。

　　数据虚拟化在实现自助服务分析方面实现了以下目标：

　　· 可以快速轻松地构建灵活的语义模型

　　· 提供带有护栏的自助服务平台

　　· 支持“数据牛仔”(限制)和常规业务用户

　　· 加快自我服务举措(消除分析孤岛)，同时保持控制和治理

　　提供完备的、可信的、高质量的信息对于决策以及预测性和规定性分析是至关重要的。数据虚拟化是一种理想的技术，可以满足那些努力使用数据作为战略资产的组织的需要。

第三十八届CIO班招生
国际CIO认证培训
首席数据官（CDO）认证培训

责编：lixiaojiao

免责声明：本网站（http://www.ciotimes.com/）内容主要来自原创、合作媒体供稿和第三方投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
本网站刊载的所有内容（包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等）版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时，请及时通知本站，予以删除。