2月23日,太原科技大学计算机科学与技术学院院长陈立潮在CIO时代APP微讲座作了题为《大数据技术与产业中的几个关键问题商榷》的主题分享,深度解读了大数据技术对产业发展的影响及若干问题。
大数据技术和大数据产业已成为人们热议的话题,整个社会已感受到大数据对未来社会发展带来的作用与价值,掌握和应用大数据能力已成为国家竞争力的重要体现。因此,各个国家纷纷将大数据作为国家发展战略,给予了足够的重视。
近年来,尽管人们都在积极参与和开展大数据技术的应用研究,发表了不少关于大数据技术的报告,但却忽视了大数据技术产业的基本问题。因此,结合实际对大数据技术产业中需要关注和研究的若干关键问题进行分析。
一、数据资源的收集与开放
习近平总书记指出:“建设全国一体化的国家大数据中心”。显然,建设一流的大数据中心是我们开展大数据技术的关键所在。如果没有很好的大数据,便不可能进行大数据的分析与挖掘。那么,如何采集与收割分散在各个系统与环节中的数据?采取什么原则和规律对数据进行合理的采集与收割?我们不能盲目地为了收集数据而收集,需考虑到为什么收集?收集什么数据?以什么方式收集数据?以及如何合理地收集数据?等问题,更不要在收集数据的过程中破坏了数据的原生态。好比一种果实,在其还未成熟的情况下便进行收割,这样的数据不仅没有任何利用价值,甚至会产生不良的结果。
在我们的信息系统中,数据是无所不在的,问题在于如何合理地收割那些有用的数据为我们服务。不要追求数据的大而全,不要看见数据便盲目地全部收割,要合理、适时、适当地收集,否则会收集到一些无用的数据,进而影响到数据挖掘的效率和效果。我们知道,错误的数据往往会导致一些错误的结果。
在数据的收集过程中,由于原生态数据的格式规范、数据的表现方式存在一定的差异。因此,收集到的数据需进行适当的进化和预处理,要及时对数据进行一定的标注和说明,建立统一的国家级数据存储标准与规范,这也关系到以后对数据的共享问题。否则,收集到的数据将无法被很好地利用。
美国公布了一份长达35页的《2016-2045年新兴科技趋势报告》中指出,在2015年,人类总共创造了4.4ZB(相当于44亿TB)的数据,而这个数据大约每两年就会翻倍。在这些数据中隐藏了各种关于消费习惯、公共健康、全球气候变化以及其他经济、社会、政治等等方面的深层次数据和信息。可惜的是,虽然“大数据”成为了一个热点,但每年只有不到10%的数据会被分析和利用。这不能不对数据质量和数据收集方式产生了质疑。
目前,我们所收集的数据资源质量不高,数据资源流通不畅,数据价值难以被有效地挖掘和利用。因此,需要全面提升我国的大数据掌控能力、数据收集开放与共享的理念,完善相关制度,推动数据资源开放和信息流通。
二、数据资源的整合与共享
大数据的本质是怎样去发现数据中的价值,大数据的魅力在于对未来发展的预知。人类思维中所包含的信息量是相当广泛的,涉及到各种各样的数据和信息。大数据中也包含着各种各样的结构化与非结构化数据,且非结构化数据占据着主导地位。因此,如何将各种类型的信息进行有机整合是大数据挖掘中的又一个关键问题。
大数据整合的目的:一是为了降低数据再利用的成本;二是为了提升数据的非可视价值。如果我们将各部门的业务数据进行整合,定会提升服务对象全面而精确的数据价值。
当对数据进行收集后,我们会发现将不同的数据整合到一起,从中会发现不同的信息与知识。对于整合起来的不同数据,从不同角度去分析,也会得到不同的结果。换言之,当我们获得一些数据后,我们可通过采用不同的挖掘算法发现数据中不同的有用信息和知识;当数据信息挖掘算法确定后,对于不同的数据组合也会有不同的结果。往往我们发现的知识便抽象地隐藏于这些大数据之中。
数据的整合类似于化学反应。当我们将不同的数据整合到一起后,会产生不同的信息与知识。问题在于如何整合或融合这些数据,如何发掘其中的信息与知识,这便涉及到如何合理、有效地对大数据进行预处理。如果对可相融的数据进行合理地整合,从而可产生新的、有价值的数据集合。
一直以来,大数据的价值属于交易过程中最棘手的问题。如果我们为数据资源定价,所交易的数据价值如何衡量?若仅仅以数量来衡量数据价值,那么大数据技术便失去其本身的意义。
其实,数据的价值一方面来源于数据自身所带来的价值(直接价值或显式价值),另一方面是数据从其他数据的集合所产生的价值(间接价值或隐式价值)。因此,数据的收集固然很重要,但数据的整合利用更重要。如果我们忽视了这一点,也便失去了大数据技术的魅力。
三、图像处理是未来大数据的主战场
过去我们所收集到的44亿TB数据中,大多属于非结构化数据,特别是一些视频图像数据。随着近年来智慧城市在我国的普及与推广,视频图像的收集成为大数据的主要来源,因此,图像大数据处理与分析也成为了大数据技术的研究热点。
我们知道,人类思维活动的大量信息主要是通过眼睛来获取的,人的一生中的知识来源也是用眼睛来承担的,占有80%的比例。图像分析与处理便成为大数据技术的应用基础,也是未来人类社会、人类智慧和人工智能的突破点。
人脸识别技术便是图像识别处理中的热点问题,它是智慧城市建设过程中的一项关键技术,不仅是银行、医疗、保险行业身份的识别与辨认,对于城市的治安、人类的活动轨迹等均可提供相应的决策支持。
图像大数据一个很大的特点便在于其连续性,需要采取一种流式处理的方式,这与我们以往考虑的静态图像不同。因此,图像处理是一种动态数据,连续、迭代分析是图像大数据处理的难点问题。图像大数据处理的另一个关键问题是要建立相应的一些图像资源库,这也是一项基础性工作,也是图像处理的基础。
四、从数据可视化到数据透视化
数据可视化是大数据分析的一种基本方式,它可以将一些繁杂凌乱的数据以各种可视化的方式(如图、表等)呈现出数据的规律与变化特点,但这种可视化仅仅反映了数据的表象特征。由于我们所涉及到的数据已远远超出了平面思维的状态,如果从不同角度看待这些数据的本质,则需另一种方式,即透视化技术。
数据的透视化主要是从数据的多维角度来观察数据的形态,从多维空间角度来刻画和理解大数据中所包含的深层次信息与知识,属于数据可视化的一直扩展和延伸。数据透视化的关键主要是如何来确定数据处理与分析中的透视点和视角,正像立方体图形的视点在不断改变时,其所呈现的图形效果是不同的。对一个立方体数据而言,当我们看待立体的角度不同时,大数据会带来不同的结果。
过去我们所考虑的数据大多为数据本身的价值,如今的数据越来越离不开时间和空间的约束,如果抛开时间和空间的概念单独分析数据,数据的作用和意义便不会太大了。如股票数据,它具有时间和空间的特征,不考虑时间和空间特征,股票数据便失去了意义。
因此,透视化技术的另一个含义就像x射线那样,能否通过一种机制和算法来探索数据中可能隐含的信息价值,这也许是一种不可能的设想。但随着挖掘算法和大数据技术及人工智能技术的发展,也许能找到实现这种技术的可能。
我国大数据产业“十三五”规划指出,加快发展面向大数据分析的在线机器学习、自然语言处理、图像理解、语音识别、空间分析、大数据可视化等数据服务,在这些数据分析服务中无不涉及到时间和空间的问题,使数据分析变成了多维数据处理问题。
五、智慧城市中的大数据
智慧城市是基于数字城市、物联网和云计算建立的现实世界与数字世界之间的融合,以实现对人和物的感知、控制和智能服务,智慧城市的实现需要建设更加完善的信息技术设施和包括智慧城市运营为主的技术支持。智慧城市建设中所产生的大数据是推动智慧城市发展的原动力,需要有针对性地加快大数据的技术创新和重点攻关研究,这样才能推动和加速智慧服务产业的发展。
大数据是智慧城市中各领域均可实现智慧化的关键性支撑技术。智慧城市的建设离不开大数据,大数据也会遍布在智慧城市各个方面,从政府的决策与服务到人民的衣食住行生活方式,从创建节约型社会到以人为本,从科技惠民再到城市的产业布局和规划,指导城市的运营和管理等,都在大数据的支撑下走向“智慧化”。
然而,智慧城市的兴起导致城市数据中心的急剧增加,许多城市为了建设智慧城市而盲目投资城市数据中心的重复建设,在一个城市建立了多个数据中心。造成了数据存储分散、数据中心过剩、数据资源浪费、能源损耗过量等现象。
目前,我国的智慧城市信息化建设管理平台还不成熟,数据标准和规范还需进一步健全,城市数据中心的基础管理系统解决方案存在模式多样、功能不一、架构自主,造成了城市公共信息管理的混乱和新的数据孤岛,极大地阻碍了新型智慧城市的建设步伐。
其实,城市智慧存在于城市的运行机制之中,存在于城市各方面资源的配合与协作之中,仅仅依靠城市数据中心的简单建设是解决不了问题的。智慧城市建设的过程中,最关键的问题在于各种数据资源的系统整合、综合分析与智能决策,如何利用大数据使城市的运行智慧化是智慧城市建设的核心问题。因此,如果无法有效地利用大数据技术,智慧城市的基础设施也会沦落为监控系统。可以说,大数据技术正是智慧城市建设和运营的基石。
数据世界并不能代替真实世界,在城市的建设过程中,隐含着城市的文化、经济、民俗等信息,也包含着城市未来的趋势、社会层级、人类欲望等等,这些都无法很好地用数据来准确表达。智慧城市的大数据技术也仅仅是对城市运行的宏观决策。因此,过分依赖大数据技术,也会影响决策的准确性、社会性和真实性。
总之,大数据技术为城市规划带来了巨大的影响,推动了智慧城市发展,智慧城市发展使整个城市更加便捷、科学、合理地规划,大数据也将极大地提高政府部门的决策效率和服务的水平。
目前大数据技术应用进展缓慢的瓶颈恰恰是一些最基本的问题没有得到很好的解决。不管是大数据技术与产业中的关键问题,还是对大数据技术未来发展的一些设想,但愿这些不成熟的、甚至是幼稚的观点能对未来大数据技术起到抛砖引玉的作用,这也就是本讲座的愿望和目的。
谢谢大家的聆听和分享。
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:houlimin
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。