1引言
2015年,我国《促进大数据发展行动纲要》出台,十八届五中全会进一步提出要在“十三五”期间实施国家大数据战略,大数据一路上升成为国家战略,社会各界对大数据的期待上升到了前所未有的高度。如何推动大数据战略落地成为未来几年的政策重点。本文重温了大数据的内涵,分析了大数据的局限性,结合国内大数据发展面临的瓶颈,提出了相关的策略建议。
2把握概念本质,深刻认识大数据的战略价值
大数据是新资源、新技术和新理念的综合体。从资源视角来看,大数据是新资源,体现了一种全新的资源观。摩尔定律仍然有效,计算存储和传输数据的能力在以指数速度增长,分布式计算、存储和数据技术的革新不断涌现,互联网企业对“数据废气”(DataExhaust)的挖掘利用大获成功,引发全社会开始重新审视“数据废气”的价值,开始把数据当作一种独特的战略资源对待。
从技术视角看,大数据代表了新一代数据管理技术。传统的数据管理与分析技术以结构化数据为对象、在小数据集上进行分析、以集中式架构为主,成本高昂。与“贵族化”的数据分析技术相比,源于互联网的,面向多源异构数据、在超大规模数据集上进行分析、以分布式架构为主的新一代数据管理技术与开源软件潮流叠加,在大幅提高处理效率的同时(数据分析从T+1到T+0甚至实时),成百倍地降低了数据存储和管理成本。底层技术的变革释放了上层应用的创新活力。
从理念的视角看,大数据提供了一种全新的思维角度。大数据的应用,赋予了“实事求是”新的内涵,其一是“数据驱动”,即经营管理决策可以自下而上地由数据来驱动,甚至像量化股票交易、实时竞价广告等场景中那样,可以由机器根据数据直接决策;其二是“数据闭环”,观察互联网行业大数据案例,它们往往能够构造起包括数据采集、建模分析、效果评估到反馈修正各个环节在内的完整“数据闭环”,从而能够不断地自我升级,螺旋上升。
大数据本身既能形成新兴产业,也能推动其他产业发展和社会进步,战略重要性毋庸置疑。从狭义看,围绕大数据采集、存储、管理和挖掘,正在逐渐形成一个小的产业生态(狭义大数据产业)。2015年,全球的大数据产业规模约为200~300亿美元。据中国信息通信研究院调查[1],2015年我国大数据市场规模达到115.9亿元,增速达38%,预计2016-2018年还将维持40%左右的高速增长。
从广义看,大数据具有通用技术的属性,能够提升运作效率,提高决策水平,从而形成由数据驱动经济发展的大生态。据华沙经济研究所测算,欧盟27国因大数据的引进,至2020年将获得1.9%的额外GDP增长[2]。美国麦肯锡预计到2020年美国大数据应用带来的增加值将占2020年GDP的2%~4%。中国信息通信研究院采用华沙经济研究所相同的模型测算,2014年大数据对我国GDP的增量贡献约为0.53%~1.25%,2020年的增量贡献最高将达到1.9%。大数据的应用对社会治理水平的提升也能起到明显的推动作用。
3避免盲目跟风,大数据热潮还需冷思考
身处大数据热潮中,既要充分认识大数据的潜力,积极把握技术进步带来的机遇,也要认清大数据的局限性,警惕大数据万能论。一些被广泛传播的经典案例现在被证明是子虚乌有的,比如,啤酒与尿布的故事实际上是Teradata公司的工程师ThomasBlischok在1992年杜撰的[3],从来没发生过;而Netflix号称用大数据分析帮助自制剧《纸牌屋》取得成功,而实际上是把大数据作为公关活动的噱头[4]。笔者认为,至少有以下几点值得思考:
第一,大数据尚难对人的行为做出精确预测。在大数据是否能准确预测人类行为的问题上,还存在重大分歧。《黑天鹅》指出人类的行为不可预测[5],而《爆发》一书则根据对以往历史经验的总结,指出人类行为93%可预测[6]。麻省理工学院教授罗伯特·莱格伯恩(RobertoRigobon)称,虽然华尔街一直重视数据分析,但基于海量数据分析的对冲基金在全球都是失败的[7]。“对于人和事件,如果放到越大的空间和时间范围,则是越可以精确预测的。如果放到越小的空间和时间范围,则是越不可以精确预测的。例如,我们几乎可以在100%的程度上预测一个人在24小时的时间范围内会吃饭;但若精确到某一分钟,则几乎不可能预测准确。”[8]大数据无法预测人类行为,归根结底还是因为人具有“自由意志”,人会根据预测结果(如下个月的股票价格、明天的交通拥堵情况)改变自身行为,从而使得预测失效。
第二,大数据相关关系不能替代因果关系。舍恩伯格在《大数据时代》[9]中说:“我们没有必要非得知道现象背后的原因,而是要让数据自己发声”,“相关关系能够帮助我们更好地了解这个世界”。追寻相关关系和因果关系,是人类思维的两种重要方式,而用大数据进行预测往往依靠相关性,也就是说,很多情况下知道“是什么”即可,不必知道“为什么”。相关关系的运用在互联网推荐、精准广告等方面得到了实际应用。然而,在很多时候,如疾病诊断、工厂故障分析等场景下,需要根据确定的(或置信度非常高的)结论来决策,仅凭相关关系是远远不够的。换言之,大数据中的相关关系应用,需要区分场景,有时候数据无法自己说话,需要追本溯源。
第三,大数据来源不均衡会让数据“说谎”。有人说数据不会撒谎。实际上,如果忽视数据来源的不均衡性,数据分析结果就会“骗人”。中国互联网络信息中心2015年的统计数据显示,我国网民城乡分布严重不均,农村网民虽然迅猛增长,但仍不及城市新增网民数量的1/10。社交网络用户的性别分布也同样有很严重的倾斜,腾讯公司2015年年初的报告显示,微信用户的男女比例为1.8:1,男性用户约占了64.3%,而女性用户则只有35.7%。如果利用网络大数据进行民意调查,却不把样本分布的不均衡性考虑进去,就可能使得某些群体未得到充分代表,而某些群体因使用率高,其意见或特征被过分放大。这种不均匀的数据来源会导致分析结果存在偏见和盲区。
第四,大数据无法消灭信息不对称现象。有人说,大数据有助于消灭信息不对称。虽然从全社会看,大数据的全面采集和融合应用有望在局部缓和信息不对称程度,但是在互联网世界中,马太效应很显著,拥有大数据资源和掌握大数据分析能力的企业,往往会在大数据时代占据更加有利的地位、占有更多数据,从而更容易形成一批数据寡头,产生新的不平等,造成新的信息不对称。因此,大数据无法消灭信息不对称,反而更有可能助推数据寡头的出现。如果这种数据垄断地位被企业滥用,将会威胁个人、企业甚至国家利益。因此,在大数据时代,如何进一步弥合数据鸿沟、防止数据“霸权”的滥用,将会成为一个重要的新课题。热潮之下,对大数据的反思,还需要不断深入,才能让我们保持清醒的头脑。
4推动开放共享,倒逼信息化建设升级
以上从理论层面做了探讨。而从大数据产业实际发展来看,我国还存在数据开放、技术创新、制度建设、区域协同等多方面的瓶颈需要突破。
开放政府数据,并带头用好大数据技术,是政府部门支持大数据发展最直接的举措。经过多年发展,我国政府信息化建设取得了举世瞩目的成就。自1993年启动金桥工程、金关工程和金卡工程以来,“两网一站四库十二金”相继建成,政务信息化水平不断提升;面向公众服务的政府网站群也已经具有较大规模,截至2015年上半年,全国各级政府网站总数达到8.6万个,其中地方8.3万个,国务院部门3000多个。政务履职和公众服务过程中积累了丰富的数据资源,是十分宝贵的资源。
数据开放共享一直是政务信息化建设的理想目标。以前,系统建设烟囱式的建设模式,加上数据权责利的管理制度没有建立起来,导致横向来看在政府内部的数据孤岛普遍存在,纵向来看数据对外开放更是缺乏技术与制度基础。现在,在全社会推进大数据的应用,数据的多源融合是先决条件,政府数据的共享开放已经成为不得不做的事情。恰好在最近几年,云计算不断成熟,为统一的政务信息平台建设提供了新工具,为数据共享融合提供了技术便利。
李克强总理强调:“首先要把政府大数据的建设事情办好,给社会一个好的示范。”用政府大数据的应用倒逼政务信息化升级,推动政务信息化建设从烟囱式、封闭式、集中式的模式,转向平台式、开放式、分布式的模式。国务院《促进大数据发展行动纲要》中,把这项工作放在首位,提出了统筹基础设施、整合应用平台、推动数据共享、推进数据开放等基础性工作,还提出要基于融合的数据,加强宏观调控科学化、政府治理精准化、商事服务便捷化等应用创新。从自身做起,体现了政府推动大数据的决心。
然而从各地推进情况看,政府数据的开放共享在实际操作中的阻力不小,动力不足。改变目前政府部门不愿开放、不敢开放、不能开放的现状,长远之计,是要自上而下,由中央建立一套完善的数据开放共享机制,明确开放共享的数据目录、技术标准,以及平台建设思路,部委和地方去落实。短期来看,还需要结合渐进路线,逐步推进。例如在政府数据开放方面,可先从已经开放的数据如何便利化应用入手。
我国很多政府网站都已经开放了比较丰富的数据资源。笔者曾经对工业和信息化部miit.gov.cn域名内已开放的数据进行了研究和梳理(未包含国防科工局、国家烟草专卖局、国家航天局和国家原子能机构,以及各地方主管部门和25个下属机构),发现已经开放的数据包含资质审核、行业统计、项目审批、产品信息、标准规范和科技成果等6大类数据集,共计约60万条数据,已经具备相当规模。
但政府已开放数据大多存在以下三方面问题:一是不好找,现有数据较为分散,检索缺乏统一入口;二是数据不好看,大多以表格或文字综述报告形式呈现,直观性不强,公众理解起来比较困难;三是数据不好用,数据格式标准不统一,绝大部分不支持机器可读。这些都增加了政府数据社会化应用的技术门槛和成本。解决上述问题,可以从技术上入手,统一标准,建立平台。首先让政府网站上本已开放的数据更好找、更好看、更好用,成熟后逐步扩大开放范围,这将是务实可行的第一步。
5强调供需对接,拉动技术产业跨越发展
大数据资源与技术,就好比工业时代的燃料与引擎,不仅自成产业,还能够驱动其他产业更好发展。当前,开源模式迅猛发展,技术“民主化”潮流势不可挡,数据技术的轨道正在从集中式向分布式切换,传统产业的格局有望重塑。在这样的大变轨时期,一方面我国领先的互联网企业——IT制造企业与国际先进水平的差距不断缩小,甚至在一些方向上达到了前所未有的接近程度。另一方面,我国正在实施《中国制造2025》战略,农业和服务业正在加速转型,有数不清的问题等待着用大数据去解决,对大数据技术产品的需求空间也十分巨大。
技术产业加速变轨、国内产业快速崛起和庞大的市场内生需求三者叠加,使得我国具备在大数据领域实现跨越发展的条件。在之前的几次信息化浪潮中,国内产业没能实现弯道超车,天时、地利、人和没有同时具备。然而在当前的时间点上,我们同时具备了产业支撑能力和巨大应用空间的优势,如果能够将两方面优势结合起来,形成良性互动格局,就能够实现跨越发展。《促进大数据发展行动纲要》提出“推动产业创新发展,培育新兴业态,助力经济转型”的任务,体现了谋划跨越发展的前瞻性。
我国大数据产业发展的一个重要目标是打造自主可控的产业体系。当前,从大数据技术与产品的供给侧看,我国虽然在局部技术上实现了单点突破,但大数据领域系统性、平台级技术创新仍不多见,供应商面临着紧跟技术趋势、精准对接用户需求的压力。从大数据技术与产品的需求侧看,对金融、电信、工业、医疗、政府等行业用户来说,正面临着如何规划技术路线、如何选择商用产品、如何构建和运维大数据平台等问题。
为此,下一步着力点应该按照中央提出的供给侧改革思路,发挥产业联盟等平台作用,深入挖掘业务需求,促进供需精准对接,把国内优势技术力量凝聚起来形成合力,突破关键技术,推出满足关键行业重大需求的大数据技术产品体系,并以产业实践为基础,逐步形成接地气的大数据标准体系和知识产权体系,逐渐向技术和产业的前沿和高端跃升。
6完善法律制度,切实保障数据安全
当数据这种新的资源越来越受重视时,与数据相关的权利义务界定也就显得越来越重要。小到个人,大到企业和国家,都是大数据的利益相关方。
对个人来说,大数据的应用对隐私保护提出了巨大挑战,技术面前个人越来越渺小和脆弱。要严格保护大数据应用中的个人信息,就需要探索形成大数据环境下数据收集、开放、交换、应用等环节的规则,明确大数据应用相关各方的个人信息保护义务和责任。
对企业来说,数据资产的所有权、使用权还是个模糊地带,急需建立数据产权保护制度,明确各类市场主体所积累的信息资产所有权归属,建立规范化管理和使用机制,保护信息所有者、信息主体及公众的合法利益。
对国家来说,数据空间成为主权的新领域。需要研究跨境数据流动分级、分类管理制度,涉及国家秘密、国家安全以及经济安全的数据进行管理,确保大数据时代的国家安全。
李克强总理指出,“政府既要‘扶持’,为大数据产业创造一个健康发展的环境,又要‘引导’、‘规范’,保障信息安全”,并提出“要完善产业标准体系,依法依规打击数据滥用、侵犯隐私等行为,让各类市场主体公平分享大数据带来的技术、制度和创新活力”。《促进大数据发展行动纲要》明确了“强化安全保障,提高管理水平,促进健康发展”的任务,以及“加快法规制度建设”的措施,从法律法规、管理制度和技术手段等多层次保障大数据安全。
完善大数据发展的制度环境是一个长期过程。长远来看,要提升大数据治理水平,深入研究数据权益、数据管理、数据交易、数据安全等关键问题,推动建立数据流通和使用的行业自律机制,逐步完善出台大数据相关法律体系,推进法治化进程。建立大规模个人信息泄露报告制度,完善网络数据和用户信息的安全防护措施及管理机制,健全网络数据保护制度。短期来看,在法律法规尚未出台之前,要充分发挥行业组织作用,构建大数据交易流通与合规应用的行业自律机制,推动行业自律,建立基于实践的大数据安全管控技术标准体系,开展大数据平台产品及服务商的可靠性及安全性评测工作、应用安全评测、监测预警和风险评估。
7突出地方特色,形成差异化的区域产业布局
国务院《促进大数据发展行动纲要》中明确提出,要“加强中央与地方协调,引导地方各级政府结合自身条件合理定位、科学谋划,将大数据发展纳入本地区经济社会和城镇化发展规划,制定出台促进大数据产业发展的政策措施,突出区域特色和分工,抓好措施落实,实现科学有序发展”。2016年4月13日召开的促进大数据发展部际联席会议第一次会议,进一步明确了地方大数据发展的重点方向,加快综合试验区建设,鼓励地方开展制度创新探索,推动数据创新应用,破解大数据发展难题。
国务院《促进大数据发展行动纲要》出台后,各地抢抓发展机遇,谋划大数据发展蓝图,不少地方已经在顶层设计、体制机制创新、业态探索和基础设施建设等方面取得了明显进展。据中国信息通信研究院统计,目前已经有23个省市出台了74个大数据相关的指导意见或规划,广东、贵州、辽宁沈阳、四川成都市地方政府还成立了大数据相关的专门机构;北京、贵州、陕西、湖北、河北、上海、浙江等地成立大数据交易所或交易中心;内蒙古、贵州等资源禀赋较好地区的超大规模绿色数据中心建设相继建成,形成了良好的发展局面。
需要特别关注的是,大部分省市的大数据规划都有大手笔的数据中心建设计划。需要注意的是,大数据绝不等于“大数据中心”,大数据发展并不一定需要大面积的产业园区。因此,地方发展大数据的重点,不是建产业园、建数据中心,而是要充分依托已有设施资源,把现有的资源利用好,要坚决杜绝盲目新建数据中心,避免造成资源空间的浪费。地方需要差异化发展,应该把大数据的发展重心放在因地制宜地促进应用创新上,放在打造完善的发展环境上,让市场在大数据发展要素配置上起决定作用。
(文章来源:《世界电信》)
第三十八届CIO班招生
国际CIO认证培训
首席数据官(CDO)认证培训
责编:houlimin
免责声明:本网站(http://www.ciotimes.com/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。