首页 > IT业界 > 正文

让大数据“觉醒”,数据中台与数据开发平台成为企业关键战略

2021-06-28 10:34:48  来源:

摘要:以2006年Hadoop技术诞生为标志,大数据技术迄今已经走过15个年头。与此同时,全球大数据的爆炸才刚刚开始:根据有关预测,2020年全球数据总量为47ZB,而到2035年将达2142ZB,未来15年将迎来全球数据量更大规模的爆发。
关键词: 大数据
\

以2006年Hadoop技术诞生为标志,大数据技术迄今已经走过15个年头。与此同时,全球大数据的爆炸才刚刚开始:根据有关预测,2020年全球数据总量为47ZB,而到2035年将达2142ZB,未来15年将迎来全球数据量更大规模的爆发。可见,2020年到2021年是一个关键的承上启下的转折之年,大数据技术必须要从前期的庞大而复杂的技术体系走向质变,甚至要经过颠覆式“重生”后,才能再次应对下一个15年的全球数据量大爆发。

中国信通院《大数据白皮书(2020)》指出,作为关键生产要素,大量数据资源还没有得到充分有效的利用。有关调查显示,企业运营中的数据只有56%能够被及时捕获,而这其中仅有57%得到了利用、43%采集的数据没有被激活,也就是说仅有32%的企业数据价值能够被激活。随着2020年数据成为新的生产要素,如何有效利用数据、充分释放数据价值将成为多方共同努力的方向,其中一个方向就是围绕数据中台构建数据开发平台。

2021年1月到6月,中国信通院组织了第12批大数据产品能力评测,首次将数据开发平台纳入评测范围,云徙科技作为国内数字中台软件领跑者参与了该评测标准的制定工作,云徙数据研发平台V3.0作为唯一参与了第12批评测的产品,成为首个通过该评测的品牌。云徙科技数据中台产品负责人蒲继强就此强调,数据中台和数据开发平台是对大数据技术的再升华,能够帮助企业打通数据烟囱、唤醒数据价值、激活数据要素,真正建立数据战略。

大数据技术的“重装再生”

大数据的数据开发平台对于大数据技术的重要性,相当于是对各类庞杂的大数据技术的再集成、再抽象和面对最终数据开发者和使用者的可视化体验。实际上在大数据技术之前的数据库和数据仓库时代,就已经有了各类数据开发工具,而大数据的数据开发平台不仅是替换之前数据库和数据仓库的各类数据开发和管理工具,更是在此之上面向数据资产的治理平台以及面向业务的支撑平台。

\

(大数据技术体系及主要开源软件,中国信通院《大数据白皮书(2020)》)

蒲继强把大数据的数据开发平台发展历程,归于四个阶段:首先,在关系型数据库和数据仓库时代,当时就有业界所熟知的PowerCenter等数据开发工具,解决从数据开发、采集到整合加工以及任务调度等问题,但是缺乏统一的数据服务和模型设计。

其次,到了2008年和2012年之间的大数据技术兴起阶段,出现了越来越多的数据源和丰富的数据种类,之前的工具无法支持非结构化数据和分布式大数据技术,也不能满足数据业务化和场景化需求。在这个阶段,很多企业开始手工编写代码调用大数据的底层技术,也就是说企业一方面要进行数据的业务开发,另一方面还要自行进行和管理底层大数据技术的调用,甚至现在仍有很多企业采用这种方式。

为什么会出现这样的情况呢?一方面是企业无法投入更多的人力物力财力去开发一个通用的数据工具平台,因为企业的本职工作是用数据支撑业务,另一方面是数据工具平台的开发是一个漫长的过程,其中伴随很多挑战与问题。但如果半途采用市场上成熟的工具平台,则又要进行原有数据和技术的迁移甚至是改造,不仅将引发很大的成本投入,也可能会破坏现有业务的运行,因此很多企业都是“能挺多久挺多久”,直到最后不得不推倒重来。

第三个阶段就是2015年,以互联网公司为代表,在企业内部开始采用数据中台技术对各类大数据技术进行集成和数据的统一管理,从而解决数据“烟囱”的问题。2015年的时候,数据中台也开始走上风口,开始了商业化进程。与数据中台相适配的数据开发平台,开始实现并逐步完善了数据的全生命周期加工,包括数据的采集、数据的分类存储、数据离线计算和流式计算、数据标签加工等,都融合在一站式开发平台。

在第三个阶段存在的问题,就是在数据建设的过程中,不能制定数据规范和标准,也就是以数据质量为代表的数据资产管理与治理。现在很多大企业的数据量越来越多,数据源范围不断扩大,数据治理特别是数据质量管理,就会成为一个很大的问题。

于是,就进入了第四个阶段,也就是从一站式数据开发向数据开发与数据治理并行的方向发展。蒲继强认为,在数据开发的过程中,同时进行数据治理,包括数据质量、数据安全等规范统一起来,有利于后面的数据业务化和场景化。特别是在数据开发过程中就已经实现了数据的标准化了,后期也就不需要再花大力气重新进行数据治理。

当前,正处于大数据的数据开发平台的第四个阶段,也就是一站式数据的开发与治理平台,这也是中国信通院在今年增加数据开发平台评测的重要背景。

面向数据中台的数据开发平台

与其它的大数据分析与管理产品/平台不同,面向数据中台的数据开发平台是一个新的品类。此前,Gartner曾发布了“面向分析的数据管理解决方案(DSMA)”魔力象限,主要指面向传统型、操作型、逻辑型和与上下文无关型数据仓库分析的完整软件系统,该系统支持和管理一个或多个文件管理系统中数据的存储、访问、处理和分发。而本次评测的数据开发平台,则更侧重于面向支撑业务场景,也就是除了分析和决策场景外,还有智能应用场景,特别是企业和产业互联网应用,这就涉及到数据业务化和数据服务运营。

蒲继强介绍,一系列相关厂商都参与了中国信通院组织的“大数据·数据开发平台”标准制定工作,通过一个月左右的时间探讨之后确定了“大数据·数据开发平台”的边界,也就是到底包含哪些功能,最终入选的功能包括数据接入、可视化集成开发环境、数据任务控制、数据共享、平台管理和数据模型设计等六大部分,其中的数据模型设计标准由云徙科技牵头制定。实际上在前期讨论中,并没有提到数据模型设计这一大功能部分,但经过讨论后认为可视化数据建模是数据中台的一个非常关键的环节,它在企业的数据资产管理、数据治理、定义数据标准等方面起到非常重要的作用,因此纳入到“大数据·数据开发平台”标准。

\

云徙科技之所以建议要将可视化数据建模纳入到“大数据·数据开发平台”标准之中,一个重要的思考就是面向业务和业务驱动。与当前国际市场上主流的面向分析的数据管理平台不同,中国的大数据技术正在快速向数据要素市场发展,也就是服务于数字经济的大数据技术。在《数字经济及其核心产业统计分类(2021)》中指出,数字经济以数据资源作为关键生产要素,而数字经济核心产业是指为产业数字化发展提供数字技术、产品、服务、基础设施和解决方案,以及完全依赖于数字技术、数据要素的各类经济活动。

简单理解,数字经济要求从数字产业化向产业数字化的过渡,也就是要求结合产业数字化发展的数字技术、产品、服务、基础设施和解决方案,从而满足那些完全依赖数字技术和数据要素的经济活动的需求,这就要求不能是纯面向技术的技术,而必须是结合业务和业务驱动的技术方案。而这就是面向分析的数据管理方案与面向业务的数据中台方案的区别,也是中国视角看大数据的数据开发平台与国际上纯技术角度的区别。

蒲继强表示,面向业务的业务中台和数据中台,这是中国特色的软件品类,在国际上并不多见。因此,结合了数据研发管理和数据资产运营的数据中台,也是中国特色软件品类。而加入了可视化数据建模的“大数据·数据开发平台”标准,突出了数据开发与数据资产运营的衔接和连接,最终目的是面向业务的数据中台和业务中台,更加凸显了中国对于大数据技术下一步发展的思考。简单理解,在中国,大数据开发平台并不是一个纯面向技术的技术方案,更是结合了中国数字经济实践、面向数据中台和业务中台的业务技术方案。

“倒推”的数据开发平台

与业界已有面向分析的数据管理方案不同,面向业务的数据中台与业务中台相生相伴,而在此逻辑下诞生的、面向数据中台的数据开发平台和数据资产运营平台又是相生相伴,因此云徙科技的数据开发平台即云徙科技数据研发平台,就是在这样一个大逻辑下的产物,或者说是由业务中台和数据中台“倒推”出来的数据开发平台。

\

(云徙科技数据中台能力图谱)

云徙科技的数据开发平台是数据研发管理平台的一部分,数据研发管理平台又是数据中台的一部分。云徙科技数据研发管理平台包括数据开发平台、数据资产管理、数据服务、ID-Mapping、标签平台和自助分析等组成部分,而云徙科技的数据研发管理平台与数据资产运营平台是相辅相成的。云徙科技的数据资产运营平台包括了数据源、主题域模型、标签模型、算法模型等组成部分,完成了数据资产的治理和运营,向上支持新零售等场景的交易智能、营销智能、服务智能等分析、决策和应用。这些构成了云徙科技的数据中台。

云徙科技的数据中台特色包括:支持多种格式的数据采集、存储和计算方案,灵活满足企业各类场景;数据采集、离线和实时计算、调度配置、ID打通、标签计算等一站式数据可视化加工;从数据模型规范、数据全景视图、数据指标体系、数据血缘追溯、数据质量监控等多维度实现数据资产管理;丰富的新零售领域数据资产框架,包括数据资源、数仓模型、消费者标签体系、推荐、预测算法模型等;支撑人、货、场的数据化运营、智能决策的数据应用。

由此,在数据中台视角下的数据开发平台,一方面强调从技术层面上屏蔽底层大数据技术能力,一方面实现了从数据接入到数据资产管理和数据运维的一站式开发管理,最终通过可视化的拖拉拽方式为最终用户提供低代码使用体验,一个形象的比喻就是将大数据技术“从DOS时代推进到Windows时代”。云徙科技的数据开发平台是数据中台的核心,而数据中台帮助企业从业务视角整合企业的全场景数据,以数据能力形式统一为企业数字化变革或创新提供服务,可以有效解决企业在大数据建设方面技术方面遇到的困境,以及从技术到应用再到数据场景的一揽子解决方案。

蒲继强强调,云徙科技的数据开发平台是一站式解决数据中台的建设全流程,强调数据研发与数据治理并行,除了研发工具外还提供了面向数据资产的数据模型,包括面向行业的数据模型,从而支持持续的数据资产运营管理。云徙科技的数据开发平台是对众多企业数字中台实践总结的产物,例如可视化数据建模就考虑到了后续的数据治理,为数据开发者设计了恰到好处的灵活度——既给予了开发者自由发挥的空间,又进行了相应的规范以对接后续的数据治理,在建模过程中就解决数据标准的统一和数据质量的问题,也就是在灵活性和规范性方面取得了很好的平衡。

总结而言:随着中国快速推进数字经济建设,将数据资源纳入新型生产要素,中国的大数据技术方案也在快速转向支撑业务的业务技术方案而非单纯面向技术的技术方案,这个方案的一个落地形式就是数据中台。数据中台打通了企业前期信息化建设出现的数据“烟囱”,无需对业务系统进行大规模改造,就可以支撑新型企业和产业互联网应用,以及相应的业务中台。而面向数据中台的数据开发平台,是企业数据战略的关键核心,一站式解决了数据开发建模与数据资产运营,结合低代码和云原生等最新技术,真正帮助企业“唤醒”大数据、激活数据要素,实现从数据资源到数据资产,建立基于数据要素的数字经济新商业模式。


第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:baxuedong

免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。